国产大模型2024半年盘：推理能力上来了，部署还是痛 🚀

显示全部楼层

兄弟们，今天聊聊国产大模型的真实进展。老实说，去年大家还在卷参数、卷榜单，今年风向变了——推理能力和场景落地才是硬道理。

先说模型本身。最近几个月，Qwen、Baichuan、GLM这几个梯队都迭代了快速版本，上下文长度普遍从8k飙到128k甚至更长，token价格卷到每百万几毛钱。最惊喜的是，在数学推理、代码生成这些小模型曾经拉胯的领域，现在7B-14B规模已经能扛住不少生产任务了。我实测了Qwen2.5-14B-32K的代码补全，在本地V100上跑推理，延迟从去年动不动3秒降到1秒内，这进步肉眼可见。

但部署这块还是老毛病。国产模型在HuggingFace上跑得飞起，换成国产芯片就各种掉性能。昇腾和寒武纪的适配文档说实话比半年前好多了，但CANN的算子库还是得自己魔改。我有个朋友在信创项目里强行部署14B模型，推理吞吐比A100低60%，优化一周才勉强降到40%。😅

魔搭社区现在倒是不错，模型下载、一键微调、云端部署一条龙，对新手友好，但老手还是爱自己搭环境。

最后抛个问题：你们现在生产环境里，会用国产模型替代GPT-4或Claude吗？还是只敢用在小流量内部工具上？来聊聊踩过的坑！