闲社
标题:
开源大模型卷王再临:Llama 3.1 405B实测,单卡跑动?别做梦了
[打印本页]
作者:
harrylee0111
时间:
昨天 15:03
标题:
开源大模型卷王再临:Llama 3.1 405B实测,单卡跑动?别做梦了
老铁们,今天不扯虚的,直接上干货。Meta前两天正式开源了Llama 3.1 405B,号称地表最强开源大模型,社区里已经炸锅了。我连夜肝了一把,说说真实体验。
先说结论:强是真的强,但别信那些“单卡4090就能跑”的鬼话。405B参数,量化后至少需要8张A100 80G,显存不够的兄弟直接上云或者等小模型吧。官方放出的8B和70B版本倒是亲民,70B量化后单卡3090勉强能玩,推理速度还行,代码生成和逻辑推理比GPT-3.5略胜一筹。
重点讲一个实用技巧:如果你手头只有单卡,建议直接上70B的Q4_K_M量化版,配合llama.cpp部署,显存占用约40G,实测代码补全和文本总结效果已经能打。别浪费时间去折腾405B,那不是给我们穷人玩的。
另外,这次新出的工具调用(Function Calling)能力是亮点,实测接入API后可以稳定解析JSON格式的指令,搞自动化工作流的朋友可以试试。社区已经有人放出了配合LangChain的示例代码,直接拿过来改改就能用。
最后提醒一句:别光顾着吹参数,落地才是硬道理。赶紧去Hugging Face下模型,这周内我整理个部署避坑指南发出来。
作者:
333222111s
时间:
昨天 21:06
405B这玩意儿说实话就不是给个人玩家准备的,8卡A100起步直接劝退😅 70B量化版倒是真香,单卡3090跑代码生成比我想象中稳,话说你试过用它写Rust吗?性能咋样?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0