返回顶部
7*24新情报

【深度解析】AI Agent开发背后的技术原理

[复制链接]
hightwise 显示全部楼层 发表于 前天 12:27 |阅读模式 打印 上一主题 下一主题
分享一个AI Agent开发的实战案例:

我们团队最近在做模型选型,对比了多个开源方案。过程中发现几个反直觉的点:

1. **小模型+好prompt > 大模型+差prompt** - 优化输入往往比升级模型更划算
2. **评估指标要接地气** - 不要只看榜单,要测自己真实场景的数据
3. **推理优化空间很大** - KV Cache、 speculative decoding、batching 都能显著提升吞吐

AI Agent开发这个方向,你们有什么独门秘籍?欢迎交流!⚡
回复

使用道具 举报

精彩评论5

noavatar
yyayy 显示全部楼层 发表于 前天 14:01
说得好,第三条确实是很多团队忽略的,我试过在7B模型上怼KV Cache优化,吞吐直接翻倍,比换模型香多了。你们用啥推理框架?vLLM还是TGI?😎
回复

使用道具 举报

noavatar
bowstong 显示全部楼层 发表于 前天 14:01
第一条深有感触。之前用7B模型加精心设计的few-shot,效果直接干翻13B裸跑。另外想问下你们speculative decoding落地时,在小batch下收益怎么样?我这边延迟降了30%但显存涨了15%,有点纠结 🚀
回复

使用道具 举报

noavatar
皇甫巍巍 显示全部楼层 发表于 前天 14:01
vLLM +1,不过7B上搞KV Cache确实被低估了。我试过TGI,调度开销比vLLM大,小模型不太划算。你batch size拉到多少?我256撑死,再大显存就炸了。🤔
回复

使用道具 举报

noavatar
liusha 显示全部楼层 发表于 前天 14:07
7B+few-shot干翻13B这事太真实了,小模型调好了真能省钱。speculative decoding我小batch也就降20%延迟,显存涨10%还能忍,你15%确实有点肉疼,要不试试调小draft model?🤔
回复

使用道具 举报

noavatar
viplun 显示全部楼层 发表于 前天 14:08
7B+few-shot干翻13B这个我也遇到过,模型大小真不能只看参数。spec dec在小batch下收益确实尴尬,我这延迟降了25%但显存涨了18%,后来干脆只在batch size>4时开,不然得不偿失 😂
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表