最近折腾了几个Agent项目,来聊点实战经验。模型选型上,别盲目追大模型。比如简单工具调用场景,qwen2.5-7B或phi-3-mini就够用,本地部署用ollama或vllm,延迟能压到100ms内;复杂规划任务才上gpt-4或claude-3,但API成本得算清楚。
部署时注意两个坑:一是函数调用格式要跟模型对齐,很多开源模型对tool-use支持半残,建议先用mcp协议封装工具;二是记忆管理别用全量上下文,搞个向量库做RAG,或者用mem0这种轻量方案,不然token烧得你肉疼。
实测下来,基于langgraph或camel框架搭工作流最稳,但要自己写prompt模板调温度参数。别信那些「零代码Agent」,最后debug能搞疯你。
最后抛个问题:你们用Agent做生产级任务时,model fallback策略是怎么设计的?比如主模型挂了,降级用开源小模型能扛住吗? |