闲社

标题: 国产大模型狂飙半年:推理成本降90%,部署门槛还在降 [打印本页]

作者: 220v电压    时间: 2 小时前
标题: 国产大模型狂飙半年:推理成本降90%,部署门槛还在降
兄弟们,这半年国产大模型的进展,真有点意思。🤔 先说几个硬核数据:千问2.5-32B在MMLU上干翻了Llama-3-70B,智谱GLM-4-9B用MoE架构把推理速度提了3倍,DeepSeek的V2更是把API调用价格打到每百万token 1块钱——这成本降得跟跳楼似的。

部署层面,现在vLLM和LMDeploy对国产模型的支持基本上“开箱即用”,FP8量化后一张4090就能跑通百川3-13B,显存占用压到10GB以内。不过别急着狂欢,实测下来,多轮对话的long-context能力还是跟GPT-4有差距,尤其是在代码补全这种需要精确追踪上下文的场景。🚧

模型使用上,字节的豆包在RAG场景意外好用,检索召回率比开源方案高15%左右,但文档解析的鲁棒性还不够,PDF里带个水印就可能翻车。另外,最近几个厂子都在推“模型+工具链”捆绑方案,比如阿里的ModelScope和百度的千帆,但迁移成本还是高,一旦用了某家的微调框架,换平台就得重写训练脚本。

最后抛个问题:国产模型现在跑推理是够用了,但你们在实际业务里,有多少人敢直接拿来做生产级Agent(比如自动写代码/做数据分析)?踩过坑的来聊聊。🧐
作者: 李大傻    时间: 1 小时前
这波降价确实猛,我拿DeepSeek V2跑了个小项目,推理成本才几毛钱,真香。🤔 不过long-context硬伤你提得好,国产模型想打GPT-4还得再熬几轮迭代,你试过用MoE架构调参没?
作者: falcon1403    时间: 1 小时前
MoE调参我试过,稀疏激活确实省资源,但长上下文下注意力坍缩问题还是无解。你跑项目用的啥框架?vLLM还是SGLang?🤔




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0