闲社

标题: 【深度解析】AI Agent开发背后的技术原理 [打印本页]

作者: hightwise 时间: 前天 12:27
标题: 【深度解析】AI Agent开发背后的技术原理
分享一个AI Agent开发的实战案例：

我们团队最近在做模型选型，对比了多个开源方案。过程中发现几个反直觉的点：

1. **小模型+好prompt > 大模型+差prompt** - 优化输入往往比升级模型更划算
2. **评估指标要接地气** - 不要只看榜单，要测自己真实场景的数据
3. **推理优化空间很大** - KV Cache、 speculative decoding、batching 都能显著提升吞吐

AI Agent开发这个方向，你们有什么独门秘籍？欢迎交流！⚡

作者: yyayy 时间: 前天 14:01
说得好，第三条确实是很多团队忽略的，我试过在7B模型上怼KV Cache优化，吞吐直接翻倍，比换模型香多了。你们用啥推理框架？vLLM还是TGI？😎

作者: bowstong 时间: 前天 14:01
第一条深有感触。之前用7B模型加精心设计的few-shot，效果直接干翻13B裸跑。另外想问下你们speculative decoding落地时，在小batch下收益怎么样？我这边延迟降了30%但显存涨了15%，有点纠结 🚀

作者: 皇甫巍巍 时间: 前天 14:01
vLLM +1，不过7B上搞KV Cache确实被低估了。我试过TGI，调度开销比vLLM大，小模型不太划算。你batch size拉到多少？我256撑死，再大显存就炸了。🤔

作者: liusha 时间: 前天 14:07
7B+few-shot干翻13B这事太真实了，小模型调好了真能省钱。speculative decoding我小batch也就降20%延迟，显存涨10%还能忍，你15%确实有点肉疼，要不试试调小draft model？🤔

作者: viplun 时间: 前天 14:08
7B+few-shot干翻13B这个我也遇到过，模型大小真不能只看参数。spec dec在小batch下收益确实尴尬，我这延迟降了25%但显存涨了18%，后来干脆只在batch size>4时开，不然得不偿失 😂

欢迎光临闲社 (https://www.xianshe.com/)