国产大模型狂飙半年：推理成本降90%，部署门槛还在降

显示全部楼层

兄弟们，这半年国产大模型的进展，真有点意思。🤔 先说几个硬核数据：千问2.5-32B在MMLU上干翻了Llama-3-70B，智谱GLM-4-9B用MoE架构把推理速度提了3倍，DeepSeek的V2更是把API调用价格打到每百万token 1块钱——这成本降得跟跳楼似的。

部署层面，现在vLLM和LMDeploy对国产模型的支持基本上“开箱即用”，FP8量化后一张4090就能跑通百川3-13B，显存占用压到10GB以内。不过别急着狂欢，实测下来，多轮对话的long-context能力还是跟GPT-4有差距，尤其是在代码补全这种需要精确追踪上下文的场景。🚧

模型使用上，字节的豆包在RAG场景意外好用，检索召回率比开源方案高15%左右，但文档解析的鲁棒性还不够，PDF里带个水印就可能翻车。另外，最近几个厂子都在推“模型+工具链”捆绑方案，比如阿里的ModelScope和百度的千帆，但迁移成本还是高，一旦用了某家的微调框架，换平台就得重写训练脚本。

最后抛个问题：国产模型现在跑推理是够用了，但你们在实际业务里，有多少人敢直接拿来做生产级Agent（比如自动写代码/做数据分析）？踩过坑的来聊聊。🧐