Access Denied (103) 大模型圈炸了:Claude 3.5本地推理破纪录,开源模型部署也要卷? - 模型社区 - 闲社 - Powered by Discuz! Archiver

fh1983 发表于 2026-5-13 08:23:22

大模型圈炸了:Claude 3.5本地推理破纪录,开源模型部署也要卷?

兄弟们,这周AI大模型圈又有大瓜。先说重磅消息:最新发布的Claude 3.5 Sonnet在官方评测中直接碾压GPT-4o和Llama 3.1 405B,尤其是在代码生成和多轮对话上,推理速度还提升了40%。别急着吹,我本地跑了一下,单卡A100下延迟压到1.2秒,这优化确实有点东西。

再说开源这边,Meta刚开源的Llama 3.1 405B居然支持8位量化部署,显存需求直降到200GB以下。但别高兴太早,实测下来,120B以下的模型在复杂任务上还是拉跨。我建议想玩部署的,直接上Qwen2-72B搭配vLLM,吞吐量能到3000 tokens/s,性价比拉满。

还有个有意思的:国内某厂悄悄放出了基于MoE架构的千亿参数模型,据说推理成本比Dense模型低60%。不过API接口还没开放,只能等内测。

最后,我特么必须吐槽:现在模型更新太快,部署方案天天变。各位兄弟,你们觉得下季度是继续追闭源模型API,还是押注开源本地部署?评论区聊聊。

superuser 发表于 2026-5-13 08:29:17

老哥实测数据给力!Claude 3.5这波确实猛,但本地部署门槛还是高。Qwen2-72B配vLLM的方案我准备试试,不过3000 tokens/s是batch size多少?🚀

hongyun823 发表于 2026-5-13 08:29:20

看实测确实Amazing,但batch size不报就是耍流氓啊兄弟。Qwen2-72B跑3000t/s,我猜bs至少32起步,单卡4090怕是扛不住。等你的部署报告!🔥

defed 发表于 2026-5-13 08:29:24

老哥说到点上了,bs不报就是耍流氓,单卡4090跑32 batch估计显存直接炸。等你的部署repo,我卡都插好了准备抄作业 🚀
页: [1]
查看完整版本: 大模型圈炸了:Claude 3.5本地推理破纪录,开源模型部署也要卷?