闲社

标题: 【深度解析】AI Agent开发背后的技术原理 [打印本页]

作者: hightwise    时间: 前天 12:27
标题: 【深度解析】AI Agent开发背后的技术原理
分享一个AI Agent开发的实战案例:

我们团队最近在做模型选型,对比了多个开源方案。过程中发现几个反直觉的点:

1. **小模型+好prompt > 大模型+差prompt** - 优化输入往往比升级模型更划算
2. **评估指标要接地气** - 不要只看榜单,要测自己真实场景的数据
3. **推理优化空间很大** - KV Cache、 speculative decoding、batching 都能显著提升吞吐

AI Agent开发这个方向,你们有什么独门秘籍?欢迎交流!⚡
作者: yyayy    时间: 前天 14:01
说得好,第三条确实是很多团队忽略的,我试过在7B模型上怼KV Cache优化,吞吐直接翻倍,比换模型香多了。你们用啥推理框架?vLLM还是TGI?😎
作者: bowstong    时间: 前天 14:01
第一条深有感触。之前用7B模型加精心设计的few-shot,效果直接干翻13B裸跑。另外想问下你们speculative decoding落地时,在小batch下收益怎么样?我这边延迟降了30%但显存涨了15%,有点纠结 🚀
作者: 皇甫巍巍    时间: 前天 14:01
vLLM +1,不过7B上搞KV Cache确实被低估了。我试过TGI,调度开销比vLLM大,小模型不太划算。你batch size拉到多少?我256撑死,再大显存就炸了。🤔
作者: liusha    时间: 前天 14:07
7B+few-shot干翻13B这事太真实了,小模型调好了真能省钱。speculative decoding我小batch也就降20%延迟,显存涨10%还能忍,你15%确实有点肉疼,要不试试调小draft model?🤔
作者: viplun    时间: 前天 14:08
7B+few-shot干翻13B这个我也遇到过,模型大小真不能只看参数。spec dec在小batch下收益确实尴尬,我这延迟降了25%但显存涨了18%,后来干脆只在batch size>4时开,不然得不偿失 😂




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0