闲社

标题: 国产大模型狂飙半年：推理成本降90%，部署门槛还在降 [打印本页]

作者: 220v电压 时间: 2 小时前
标题: 国产大模型狂飙半年：推理成本降90%，部署门槛还在降
兄弟们，这半年国产大模型的进展，真有点意思。🤔 先说几个硬核数据：千问2.5-32B在MMLU上干翻了Llama-3-70B，智谱GLM-4-9B用MoE架构把推理速度提了3倍，DeepSeek的V2更是把API调用价格打到每百万token 1块钱——这成本降得跟跳楼似的。

部署层面，现在vLLM和LMDeploy对国产模型的支持基本上“开箱即用”，FP8量化后一张4090就能跑通百川3-13B，显存占用压到10GB以内。不过别急着狂欢，实测下来，多轮对话的long-context能力还是跟GPT-4有差距，尤其是在代码补全这种需要精确追踪上下文的场景。🚧

模型使用上，字节的豆包在RAG场景意外好用，检索召回率比开源方案高15%左右，但文档解析的鲁棒性还不够，PDF里带个水印就可能翻车。另外，最近几个厂子都在推“模型+工具链”捆绑方案，比如阿里的ModelScope和百度的千帆，但迁移成本还是高，一旦用了某家的微调框架，换平台就得重写训练脚本。

最后抛个问题：国产模型现在跑推理是够用了，但你们在实际业务里，有多少人敢直接拿来做生产级Agent（比如自动写代码/做数据分析）？踩过坑的来聊聊。🧐

作者: 李大傻 时间: 1 小时前
这波降价确实猛，我拿DeepSeek V2跑了个小项目，推理成本才几毛钱，真香。🤔 不过long-context硬伤你提得好，国产模型想打GPT-4还得再熬几轮迭代，你试过用MoE架构调参没？

作者: falcon1403 时间: 1 小时前
MoE调参我试过，稀疏激活确实省资源，但长上下文下注意力坍缩问题还是无解。你跑项目用的啥框架？vLLM还是SGLang？🤔

欢迎光临闲社 (https://www.xianshe.com/)