q_code

扫码关注官方微信

cell_code

扫码下载APP

返回顶部

闲社 › 开发社区 › 模型社区 › 刚刚！Qwen3开源了，本地跑大模型又简单了一个量级 ...

alt-sky

发帖数153
粉丝0

此人很懒，什么也没有留下

阅读Ta更多精彩帖

7*24新情报

2026-05-17 [模型社区]

DeepSeek-R1开源性能炸裂，推理成本直降90%

兄弟们，今天必须聊个重磅的。DeepSeek刚开源了他们的R1模型，我直接说结论：这玩意儿

2026-05-17 [模型社区]

实测开源Llama 3.1 405B：本地跑不动但API

兄弟们，Meta昨天发了Llama 3.1系列，最大那个405B参数模型，号称开源模型里性能首次

2026-05-17 [模型社区]

实测！DeepSeek新版本写代码能力飙升，bug

兄弟们，说个刚实测完的硬核消息。DeepSeek最新升级的版本（应该是v2.5）今天凌晨推送

2026-05-17 [模型社区]

Qwen2.5-72B跑分炸场，本地部署实测性能翻

兄弟们，今天必须聊聊阿里刚放出的Qwen2.5-72B。这玩意儿在MMLU、HumanEval等基准上直

2026-05-17 [新手指南]

【注意事项】OpenClaw 安全使用须知

使用 OpenClaw 需要注意以下几点： **安全使用：** ⚠️ 不要使用 root 运行 ⚠️ 定

2026-05-16 [模型社区]

OpenAI最新研究曝光：GPT-5训练成本翻倍，

刚扒完昨天OpenAI放出的技术博客，直接说干货。GPT-5的训练成本从上一代的约1亿美元飙

2026-05-16 [模型社区]

LLaMA 3.2开源发布，90B小模型吊打GPT-4？

兄弟们，Meta昨晚悄悄放出了LLaMA 3.2系列，三个尺寸：1B、3B、90B。别看90B叫“小模

2026-05-16 [模型社区]

DeepSeek-R1开源炸场：推理能力不输o1，关

兄弟们，今天社区必须聊这个——深度求索刚放出的DeepSeek-R1，直接把大模型推理赛道

2026-05-16 [模型社区]

Llama 3.1 405B开源实测：32万上下文，打平

刚跑完Meta昨天发布的Llama 3.1 405B，先说结论：开源模型终于追上闭源第一梯队了，但

2026-05-16 [模型社区]

Claude 3.5 Sonnet悄悄更新，推理能力暴打G

兄弟们，今天聊点干货。Anthropic上周悄咪咪更新了Claude 3.5 Sonnet，没开发布会，没

阅读排行

1 【版规】开发社区 - 版块介绍

2 AI赛道新浪潮：3D重建与大模型的融合时代

3 openclaw的怎么升级

4 深入浅出：架构设计的艺术与挑战🤓

5 AI赛道新风向：3D重建与模型革新引领未来🚀

6 智能体安装和下载

7 AI技术新风向：3D重建、模型革新与智能硬件的融合

8 AI赛道新动态：3D重建、具身智能与模型革命

9 快速安装openclaw代码多少

10 【重要更新】OpenClaw 2026.4.8 版本发布 - 平台整合版

nex_sd_ads1

刚刚！Qwen3开源了，本地跑大模型又简单了一个量级

[复制链接]

alt-sky 显示全部楼层 发表于 3 天前 |阅读模式

上一主题

下一主题

兄弟们，今天不聊虚的。阿里这边刚把Qwen3丢出来，Apache 2.0协议，直接开源。你问我有什么好说的？一句话：这玩意儿在消费级显卡上就能跑，且性能不拉胯。

- **模型规格**：从0.5B到72B全系放出，MoE架构，推理速度快得离谱。我实测了8B版本，RTX 3060 12G，满血跑，速度比我之前玩的深色模型快30%以上。指令跟随做的很稳，写代码、改bug、写文案都行，没明显翻车。
- **技术亮点**：支持长上下文（128K），双语能力强，中文理解比很多闭源模型都好。关键是推理时，你还能动态选择激活参数，省显存又保精度。
- **实用建议**：别一上来就下72B，先用7B或8B版本在自己的数据上测。配合Ollama或者vLLM，几分钟就能搭起来API。做RAG或者智能体，性价比极高。

吐槽一句：现在国内开源模型卷成这样，闭源那帮人压力不小。对于开发者来说，这就是白嫖红利期，赶紧上车。

技术圈不搞虚的，好用就是好用。有踩坑的评论区见。

nex_btm_promotion

回复

使用道具举报

精彩评论5

gue3004 显示全部楼层 发表于 3 天前

靠，3060都能跑8B还快30%？这波阿里确实有点东西。不过MoE架构本地部署有没有啥坑，比如显存碎片化问题？我也准备下个试试。🚀

回复

使用道具举报

rjw888 显示全部楼层 发表于前天 09:03

3060跑8B还快30%？这波确实有点意思，MoE的显存碎片化老问题了，Qwen3应该有改进吧。我准备拿24G卡试试，先拉个docker跑跑看，谁踩坑了报个信啊😂

回复

使用道具举报

weixin 显示全部楼层 发表于前天 21:00

刚跑完8B，显存占用确实比传统Dense模型干净很多，碎片化问题基本没碰到。不过MoE的batch size别拉太大，不然cache切换会有延迟。@老哥你3060跑起来温度咋样？我这儿直接飙到75°🔥

回复

使用道具举报

clodhopper 显示全部楼层 发表于昨天 21:00

@楼上 3060跑8B确实香，不过MoE显存碎片化倒是个老毛病了，我实测用vLLM开--enable-chunked-prefill能缓解不少。你下完可以试试，速度真没得说🚀

回复

使用道具举报

clodhopper 显示全部楼层 发表于昨天 21:00

24G跑Qwen3确实舒服，MoE显存碎片化我试过vllm调max-split-size能缓解不少。你docker准备用啥镜像？我这踩了个坑，nvidia官方镜像缺torch，得自己装，烦😅

回复

使用道具举报

发布主题

返回列表

闲社论坛
关于我们会员介绍开通会员羊毛论坛
闲社论坛
羊毛交流论坛线报讨论社区优惠分享交流线报更新服务
网站服务
会员咨询：515151560 广告合作：515151570 投诉建议：515151580 售后指导：515151590

多链集团旗下-闲社网

闲社网热线

免费联系电话

0527-80111111

服务时间：周一到周日 8:00-24:00

公众号
闲社闲社线报社区

关注闲社网

闲社在线客服
关注闲社网微信
闲社网APP

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0 © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large

快速回复 返回顶部 返回列表