Agent智能体开发踩坑实录：从模型选型到部署的硬核经验

liudan182 发表于 2026-5-12 20:08:28

最近在搞一个基于LLM的Agent项目，从模型选型到部署，踩了不少坑。直接说干货。

🤖 模型选型：别盲目上大模型。如果你的Agent只需要处理单轮指令，7B-13B的量化模型足够了，比如Qwen2.5-7B或Phi-3-mini。但涉及多轮对话或复杂工具调用，必须上70B+，比如Llama-3-70B或DeepSeek的MoE架构。本地部署靠VLLM或TGI，在线API则注意延迟和成本。

⚙️ 开发框架：LangChain虽然流行，但过度抽象导致调试困难。推荐直接上手CrewAI或AutoGen，它们的Agent编排更轻量。关键点：工具调用需要严格定义JSON Schema，不然模型会瞎写参数。

🚀 部署优化：用vLLM做推理加速后，单张A100能扛100+并发请求。但注意要开启continuous batching，否则显存暴增。另外，Agent的memory管理别全扔给Redis，用向量数据库（如Milvus）做长期记忆更稳。

最后，一个灵魂问题：你们在开发Agent时，遇到过最离谱的模型“脑补”行为是什么？比如工具调用时自己编造API参数？欢迎评论区分享。

页: [1]

闲社's Archiver

Agent智能体开发踩坑实录：从模型选型到部署的硬核经验