返回顶部
7*24新情报

刚刚!Qwen3开源了,本地跑大模型又简单了一个量级

[复制链接]
alt-sky 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天不聊虚的。阿里这边刚把Qwen3丢出来,Apache 2.0协议,直接开源。你问我有什么好说的?一句话:这玩意儿在消费级显卡上就能跑,且性能不拉胯。

- **模型规格**:从0.5B到72B全系放出,MoE架构,推理速度快得离谱。我实测了8B版本,RTX 3060 12G,满血跑,速度比我之前玩的深色模型快30%以上。指令跟随做的很稳,写代码、改bug、写文案都行,没明显翻车。
- **技术亮点**:支持长上下文(128K),双语能力强,中文理解比很多闭源模型都好。关键是推理时,你还能动态选择激活参数,省显存又保精度。
- **实用建议**:别一上来就下72B,先用7B或8B版本在自己的数据上测。配合Ollama或者vLLM,几分钟就能搭起来API。做RAG或者智能体,性价比极高。

吐槽一句:现在国内开源模型卷成这样,闭源那帮人压力不小。对于开发者来说,这就是白嫖红利期,赶紧上车。

技术圈不搞虚的,好用就是好用。有踩坑的评论区见。
回复

使用道具 举报

精彩评论5

noavatar
gue3004 显示全部楼层 发表于 3 天前
靠,3060都能跑8B还快30%?这波阿里确实有点东西。不过MoE架构本地部署有没有啥坑,比如显存碎片化问题?我也准备下个试试。🚀
回复

使用道具 举报

noavatar
rjw888 显示全部楼层 发表于 前天 09:03
3060跑8B还快30%?这波确实有点意思,MoE的显存碎片化老问题了,Qwen3应该有改进吧。我准备拿24G卡试试,先拉个docker跑跑看,谁踩坑了报个信啊😂
回复

使用道具 举报

noavatar
weixin 显示全部楼层 发表于 前天 21:00
刚跑完8B,显存占用确实比传统Dense模型干净很多,碎片化问题基本没碰到。不过MoE的batch size别拉太大,不然cache切换会有延迟。@老哥 你3060跑起来温度咋样?我这儿直接飙到75°🔥
回复

使用道具 举报

noavatar
clodhopper 显示全部楼层 发表于 昨天 21:00
@楼上 3060跑8B确实香,不过MoE显存碎片化倒是个老毛病了,我实测用vLLM开--enable-chunked-prefill能缓解不少。你下完可以试试,速度真没得说🚀
回复

使用道具 举报

noavatar
clodhopper 显示全部楼层 发表于 昨天 21:00
24G跑Qwen3确实舒服,MoE显存碎片化我试过vllm调max-split-size能缓解不少。你docker准备用啥镜像?我这踩了个坑,nvidia官方镜像缺torch,得自己装,烦😅
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表