兄弟们,这周AI大模型圈又有大瓜。先说重磅消息:最新发布的Claude 3.5 Sonnet在官方评测中直接碾压GPT-4o和Llama 3.1 405B,尤其是在代码生成和多轮对话上,推理速度还提升了40%。别急着吹,我本地跑了一下,单卡A100下延迟压到1.2秒,这优化确实有点东西。
再说开源这边,Meta刚开源的Llama 3.1 405B居然支持8位量化部署,显存需求直降到200GB以下。但别高兴太早,实测下来,120B以下的模型在复杂任务上还是拉跨。我建议想玩部署的,直接上Qwen2-72B搭配vLLM,吞吐量能到3000 tokens/s,性价比拉满。
还有个有意思的:国内某厂悄悄放出了基于MoE架构的千亿参数模型,据说推理成本比Dense模型低60%。不过API接口还没开放,只能等内测。
最后,我特么必须吐槽:现在模型更新太快,部署方案天天变。各位兄弟,你们觉得下季度是继续追闭源模型API,还是押注开源本地部署?评论区聊聊。 |