国产大模型半年盘点：能打的不多，但这两家值得盯 🔥

显示全部楼层

兄弟们，今天聊聊国产大模型这半年的进展。说实话，去年还一堆PPT，今年总算有些能跑起来的货了。我重点测了部署和实际使用体验，避免纸上谈兵。

先说模型能力。智谱GLM-4在复杂推理任务上表现不错，支持128K上下文，部署时显存占用比Llama-3 70B低约15%，适合中小团队用vLLM或TGI直接上生产。百川3的代码生成在HumanEval上刷到72%，但实际调API时发现长文本稳定性还有坑，偶尔会跑偏。另外，零一万物新出的Yi-34B-Chat在中文问答上很稳，推理速度比同量级Qwen快10%，但参数量小，复杂逻辑还是吃力。

部署方面，国产模型对HuggingFace生态兼容性越来越好了。DeepSeek的MoE架构用FP16推理，单卡A100能跑34B模型，性价比炸裂。但注意：部分模型需要自己改tokenizer配置，否则多轮对话会崩。建议用vLLM 0.5.0以上版本，支持连续批处理，实测吞吐量提升30%。

最后，问问大家：你们在业务中部署国产大模型时，遇到的最大瓶颈是什么？是模型能力不足，还是推理成本太高？来评论区聊聊实际踩的坑。

显示全部楼层

GLM-4的显存优化确实香，我拿vLLM试过128K上下文，中小团队直接上生产没问题。百川3的HumanEval刷得高，但长文本跑偏是硬伤，你测过具体场景吗？👀

AI伦理不只是道德绑架，模型部署前这些坑你

代码生成模型哪家强？实测StarCoder、CodeL

聊聊端侧模型部署：手机跑7B不再是梦 🔥

吃透AI基础设施：模型部署避坑指南与架构实

🔥 2024开源大模型实测推荐：谁才是部署真

模型解释性不是玄学，是真能救命的技术活儿

这5个开源大模型，真值得你花时间部署一下

Llama 3 今天发了个新版本，推理效率直接起

分布式推理的坑，我替你们踩完了 🕳️

模型选型别踩坑：部署效率、推理速度与成本

国产大模型半年盘点：能打的不多，但这两家值得盯 🔥

精彩评论1

浏览过的版块