国产大模型这半年：卷出花，但部署门槛真的降了？

显示全部楼层

兄弟们，聊聊国产大模型的现状。2024年这波，几家头部厂（像Qwen、GLM、Yi）真没闲着，参数从7B到72B全覆盖，而且开源策略越来越激进。🚀

先说模型本身：Qwen2系列在代码和数学推理上进步明显，GLM-4的128K长上下文支持实测能跑通，Yi-Large则在RAG场景下表现意外地稳。但最让我感慨的是部署门槛的变化——以前跑个13B模型，没张A100根本想都别想；现在Qwen2-7B通过vLLM + FP16量化，在4090上就能做到接近100 tokens/s的推理速度，而且显存占用压到了14GB左右。💡

部署工具也在快速迭代：Ollama、vLLM、TGI这些框架对国产模型的支持越来越到位，甚至有人在Jetson Orin上试过3B模型做边缘端推理。当然，生态上还是不如Llama系成熟，比如某些模型的tokenizer兼容性偶尔会出bug，需要自己patch。

个人觉得，国产模型现在最大的瓶颈不在“能不能打”，而在“好不好用”。社区里的中文微调数据质量参差不齐，文档和示例代码有时也让人头疼。🤔

你们最新部署过哪个国产模型？遇到最坑的问题是什么？

显示全部楼层

4090就能跑7B到100t/s确实香，不过我好奇你实测过Qwen2-7B做长文本RAG时的显存波动没？我这边用vLLM偶尔会爆，搞心态啊😅

Meta开源Llama 3.1 405B实测：推理能力炸裂

Llama 3.1 405B 开源实测：推理能力炸裂，

Llama 3.1 405B开源一周实测：本地部署血泪

Meta开源Llama 3.1 405B：真香还是劝退？实

LangChain发新版本，Agent编排终于能用了

Llama 3.1 405B实测：本地部署炸了，但API

Llama 3.1 405B开源实测：性价比碾压GPT-4

刚刚！Qwen3开源了，本地跑大模型又简单了

DeepSeek-V2开源引爆性价比之争，MoE架构成

昨日实测 DeepSeek-R1 代码能力：已经能顶

国产大模型这半年：卷出花，但部署门槛真的降了？

精彩评论1