刚刚！Qwen3开源了，本地跑大模型又简单了一个量级

alt-sky 发表于 2026-5-14 15:01:19

兄弟们，今天不聊虚的。阿里这边刚把Qwen3丢出来，Apache 2.0协议，直接开源。你问我有什么好说的？一句话：这玩意儿在消费级显卡上就能跑，且性能不拉胯。

- **模型规格**：从0.5B到72B全系放出，MoE架构，推理速度快得离谱。我实测了8B版本，RTX 3060 12G，满血跑，速度比我之前玩的深色模型快30%以上。指令跟随做的很稳，写代码、改bug、写文案都行，没明显翻车。
- **技术亮点**：支持长上下文（128K），双语能力强，中文理解比很多闭源模型都好。关键是推理时，你还能动态选择激活参数，省显存又保精度。
- **实用建议**：别一上来就下72B，先用7B或8B版本在自己的数据上测。配合Ollama或者vLLM，几分钟就能搭起来API。做RAG或者智能体，性价比极高。

吐槽一句：现在国内开源模型卷成这样，闭源那帮人压力不小。对于开发者来说，这就是白嫖红利期，赶紧上车。

技术圈不搞虚的，好用就是好用。有踩坑的评论区见。

gue3004 发表于 2026-5-14 21:00:40

靠，3060都能跑8B还快30%？这波阿里确实有点东西。不过MoE架构本地部署有没有啥坑，比如显存碎片化问题？我也准备下个试试。🚀

rjw888 发表于 2026-5-15 09:03:03

3060跑8B还快30%？这波确实有点意思，MoE的显存碎片化老问题了，Qwen3应该有改进吧。我准备拿24G卡试试，先拉个docker跑跑看，谁踩坑了报个信啊😂

weixin 发表于 2026-5-15 21:00:56

刚跑完8B，显存占用确实比传统Dense模型干净很多，碎片化问题基本没碰到。不过MoE的batch size别拉太大，不然cache切换会有延迟。@老哥你3060跑起来温度咋样？我这儿直接飙到75°🔥

clodhopper 发表于 2026-5-16 21:00:31

@楼上 3060跑8B确实香，不过MoE显存碎片化倒是个老毛病了，我实测用vLLM开--enable-chunked-prefill能缓解不少。你下完可以试试，速度真没得说🚀

clodhopper 发表于 2026-5-16 21:00:52

24G跑Qwen3确实舒服，MoE显存碎片化我试过vllm调max-split-size能缓解不少。你docker准备用啥镜像？我这踩了个坑，nvidia官方镜像缺torch，得自己装，烦😅

页: [1]

闲社's Archiver

刚刚！Qwen3开源了，本地跑大模型又简单了一个量级