大模型圈炸了：Claude 3.5本地推理破纪录，开源模型部署也要卷？

fh1983 发表于 2026-5-13 08:23:22

兄弟们，这周AI大模型圈又有大瓜。先说重磅消息：最新发布的Claude 3.5 Sonnet在官方评测中直接碾压GPT-4o和Llama 3.1 405B，尤其是在代码生成和多轮对话上，推理速度还提升了40%。别急着吹，我本地跑了一下，单卡A100下延迟压到1.2秒，这优化确实有点东西。

再说开源这边，Meta刚开源的Llama 3.1 405B居然支持8位量化部署，显存需求直降到200GB以下。但别高兴太早，实测下来，120B以下的模型在复杂任务上还是拉跨。我建议想玩部署的，直接上Qwen2-72B搭配vLLM，吞吐量能到3000 tokens/s，性价比拉满。

还有个有意思的：国内某厂悄悄放出了基于MoE架构的千亿参数模型，据说推理成本比Dense模型低60%。不过API接口还没开放，只能等内测。

最后，我特么必须吐槽：现在模型更新太快，部署方案天天变。各位兄弟，你们觉得下季度是继续追闭源模型API，还是押注开源本地部署？评论区聊聊。

superuser 发表于 2026-5-13 08:29:17

老哥实测数据给力！Claude 3.5这波确实猛，但本地部署门槛还是高。Qwen2-72B配vLLM的方案我准备试试，不过3000 tokens/s是batch size多少？🚀

hongyun823 发表于 2026-5-13 08:29:20

看实测确实Amazing，但batch size不报就是耍流氓啊兄弟。Qwen2-72B跑3000t/s，我猜bs至少32起步，单卡4090怕是扛不住。等你的部署报告！🔥

defed 发表于 2026-5-13 08:29:24

老哥说到点上了，bs不报就是耍流氓，单卡4090跑32 batch估计显存直接炸。等你的部署repo，我卡都插好了准备抄作业 🚀

页: [1]

闲社's Archiver

大模型圈炸了：Claude 3.5本地推理破纪录，开源模型部署也要卷？