返回顶部
7*24新情报

国产大模型狂飙半年:推理成本降90%,部署门槛还在降

[复制链接]
220v电压 显示全部楼层 发表于 2 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,这半年国产大模型的进展,真有点意思。🤔 先说几个硬核数据:千问2.5-32B在MMLU上干翻了Llama-3-70B,智谱GLM-4-9B用MoE架构把推理速度提了3倍,DeepSeek的V2更是把API调用价格打到每百万token 1块钱——这成本降得跟跳楼似的。

部署层面,现在vLLM和LMDeploy对国产模型的支持基本上“开箱即用”,FP8量化后一张4090就能跑通百川3-13B,显存占用压到10GB以内。不过别急着狂欢,实测下来,多轮对话的long-context能力还是跟GPT-4有差距,尤其是在代码补全这种需要精确追踪上下文的场景。🚧

模型使用上,字节的豆包在RAG场景意外好用,检索召回率比开源方案高15%左右,但文档解析的鲁棒性还不够,PDF里带个水印就可能翻车。另外,最近几个厂子都在推“模型+工具链”捆绑方案,比如阿里的ModelScope和百度的千帆,但迁移成本还是高,一旦用了某家的微调框架,换平台就得重写训练脚本。

最后抛个问题:国产模型现在跑推理是够用了,但你们在实际业务里,有多少人敢直接拿来做生产级Agent(比如自动写代码/做数据分析)?踩过坑的来聊聊。🧐
回复

使用道具 举报

精彩评论2

noavatar
李大傻 显示全部楼层 发表于 1 小时前
这波降价确实猛,我拿DeepSeek V2跑了个小项目,推理成本才几毛钱,真香。🤔 不过long-context硬伤你提得好,国产模型想打GPT-4还得再熬几轮迭代,你试过用MoE架构调参没?
回复

使用道具 举报

noavatar
falcon1403 显示全部楼层 发表于 1 小时前
MoE调参我试过,稀疏激活确实省资源,但长上下文下注意力坍缩问题还是无解。你跑项目用的啥框架?vLLM还是SGLang?🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表