大模型圈炸了：Claude 3.5本地推理破纪录，开源模型部署也要卷？

显示全部楼层

兄弟们，这周AI大模型圈又有大瓜。先说重磅消息：最新发布的Claude 3.5 Sonnet在官方评测中直接碾压GPT-4o和Llama 3.1 405B，尤其是在代码生成和多轮对话上，推理速度还提升了40%。别急着吹，我本地跑了一下，单卡A100下延迟压到1.2秒，这优化确实有点东西。

再说开源这边，Meta刚开源的Llama 3.1 405B居然支持8位量化部署，显存需求直降到200GB以下。但别高兴太早，实测下来，120B以下的模型在复杂任务上还是拉跨。我建议想玩部署的，直接上Qwen2-72B搭配vLLM，吞吐量能到3000 tokens/s，性价比拉满。

还有个有意思的：国内某厂悄悄放出了基于MoE架构的千亿参数模型，据说推理成本比Dense模型低60%。不过API接口还没开放，只能等内测。

最后，我特么必须吐槽：现在模型更新太快，部署方案天天变。各位兄弟，你们觉得下季度是继续追闭源模型API，还是押注开源本地部署？评论区聊聊。