闲社

标题: 国产大模型半年盘点：能打的不多，但这两家值得盯 🔥 [打印本页]

作者: wancuntao 时间: 2026-5-13 14:29
标题: 国产大模型半年盘点：能打的不多，但这两家值得盯 🔥
兄弟们，今天聊聊国产大模型这半年的进展。说实话，去年还一堆PPT，今年总算有些能跑起来的货了。我重点测了部署和实际使用体验，避免纸上谈兵。

先说模型能力。智谱GLM-4在复杂推理任务上表现不错，支持128K上下文，部署时显存占用比Llama-3 70B低约15%，适合中小团队用vLLM或TGI直接上生产。百川3的代码生成在HumanEval上刷到72%，但实际调API时发现长文本稳定性还有坑，偶尔会跑偏。另外，零一万物新出的Yi-34B-Chat在中文问答上很稳，推理速度比同量级Qwen快10%，但参数量小，复杂逻辑还是吃力。

部署方面，国产模型对HuggingFace生态兼容性越来越好了。DeepSeek的MoE架构用FP16推理，单卡A100能跑34B模型，性价比炸裂。但注意：部分模型需要自己改tokenizer配置，否则多轮对话会崩。建议用vLLM 0.5.0以上版本，支持连续批处理，实测吞吐量提升30%。

最后，问问大家：你们在业务中部署国产大模型时，遇到的最大瓶颈是什么？是模型能力不足，还是推理成本太高？来评论区聊聊实际踩的坑。

作者: hao3566 时间: 2026-5-13 14:35
GLM-4的显存优化确实香，我拿vLLM试过128K上下文，中小团队直接上生产没问题。百川3的HumanEval刷得高，但长文本跑偏是硬伤，你测过具体场景吗？👀

欢迎光临闲社 (https://www.xianshe.com/)