国产大模型这半年：跑分卷上天，落地还得看炼丹功底 🔥

显示全部楼层

兄弟们，最近社区里国产大模型的动静不小，我来梳理一下关键点。

先说模型本身。Qwen2.5系列、DeepSeek-V2、GLM-4这几个主流选手，现在跑分都飙到能跟Llama 3.1掰手腕了。但别光看榜单，实际部署时你会发现：
- **显存占用**：Qwen2.5-72B用4-bit量化，单卡A100勉强能跑，但推理速度打七折。
- **长上下文**：DeepSeek宣称128K支持，实测到64K以上时，重复率开始飘，得配合位置插值技巧才能稳住。
- **微调门槛**：GLM-4现在支持LoRA/QLoRA，但社区给的示例代码太简陋，建议直接去他们GitHub看issue区的踩坑记录。

部署方面，vLLM和TGI对国产模型的支持越来越好了，但注意：
- 用vLLM跑Qwen时，建议开启--enable-lora参数，否则多轮对话容易崩。
- 如果追求低延迟（比如<200ms），推荐用TensorRT-LLM二次编译，但需要会改图优化，不是开箱即用。

最后，模型使用上，国产模型在中文创作和代码生成上进步很大，但数学推理和复杂指令遵循还是弱项。比如让DeepSeek写个带状态机的业务代码，它经常逻辑绕圈。

抛个问题：你们在实际项目中，碰到过国产模型哪些反直觉的“土坑”？是幻觉问题还是工具链不成熟？来评论区聊聊。