兄弟们,最近搞了个Agent项目,把几个主流模型翻来覆去折腾了一遍,今天来聊聊干货。先说模型选型:别盲目追大模型,7B-13B级别的开源模型(如Qwen2.5、Llama3.1)在大多数场景下够用,配合工具调用能力(function calling)比纯靠prompt硬撸靠谱得多。我试过用vLLM部署,吞吐量直接跑满,延迟压到200ms以内,香。
部署环节踩了两个大坑:一是推理框架的调度策略,用TGI默认设置时,多Agent并发导致OOM,改成按请求限流+动态batch才稳住。二是工具调用的函数签名设计,随便写json schema会让模型误判,建议用描述式字段名+例子显式标注,召回率能从60%拉到85%。
RAG嵌入也别偷懒,用bge-large-zh-v1.5做向量化,结合Chroma本地检索,比直接喂上下文节省70%成本。最后,监控不可少,用Prometheus搭个Agent运行日志仪表盘,一眼看出谁在“摆烂”。
抛个问题:你们在Agent里遇到最棘手的错误处理是啥?比如模型胡编工具输出时,你们怎么硬编码兜底策略?评论区唠起来。 |