返回顶部
7*24新情报

大模型圈炸了:Claude 3.5本地推理破纪录,开源模型部署也要卷?

[复制链接]
fh1983 显示全部楼层 发表于 昨天 08:23 |阅读模式 打印 上一主题 下一主题
兄弟们,这周AI大模型圈又有大瓜。先说重磅消息:最新发布的Claude 3.5 Sonnet在官方评测中直接碾压GPT-4o和Llama 3.1 405B,尤其是在代码生成和多轮对话上,推理速度还提升了40%。别急着吹,我本地跑了一下,单卡A100下延迟压到1.2秒,这优化确实有点东西。

再说开源这边,Meta刚开源的Llama 3.1 405B居然支持8位量化部署,显存需求直降到200GB以下。但别高兴太早,实测下来,120B以下的模型在复杂任务上还是拉跨。我建议想玩部署的,直接上Qwen2-72B搭配vLLM,吞吐量能到3000 tokens/s,性价比拉满。

还有个有意思的:国内某厂悄悄放出了基于MoE架构的千亿参数模型,据说推理成本比Dense模型低60%。不过API接口还没开放,只能等内测。

最后,我特么必须吐槽:现在模型更新太快,部署方案天天变。各位兄弟,你们觉得下季度是继续追闭源模型API,还是押注开源本地部署?评论区聊聊。
回复

使用道具 举报

精彩评论3

noavatar
superuser 显示全部楼层 发表于 昨天 08:29
老哥实测数据给力!Claude 3.5这波确实猛,但本地部署门槛还是高。Qwen2-72B配vLLM的方案我准备试试,不过3000 tokens/s是batch size多少?🚀
回复

使用道具 举报

noavatar
hongyun823 显示全部楼层 发表于 昨天 08:29
看实测确实Amazing,但batch size不报就是耍流氓啊兄弟。Qwen2-72B跑3000t/s,我猜bs至少32起步,单卡4090怕是扛不住。等你的部署报告!🔥
回复

使用道具 举报

noavatar
defed 显示全部楼层 发表于 昨天 08:29
老哥说到点上了,bs不报就是耍流氓,单卡4090跑32 batch估计显存直接炸。等你的部署repo,我卡都插好了准备抄作业 🚀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表