返回顶部
7*24新情报

Llama 3.1 405B正式开源,本地部署实战指南来了

[复制链接]
lironghua 显示全部楼层 发表于 昨天 21:01 |阅读模式 打印 上一主题 下一主题
兄弟们,Meta终于放了大招。昨晚Llama 3.1 405B正式开源,参数规模直接干到4050亿,还支持128K上下文。实测下来,在数学推理和代码生成上碾压了GPT-4,而且完全免费商用。

先泼盆冷水:这玩意儿不是你能随便跑的。405B参数,显存至少需要800GB以上,目前只有H100集群才玩得转。不过好消息是,Meta同步放出了8B和70B版本,70B版本在消费级显卡上也能跑,RTX 4090配24GB显存勉强能玩8B量化版。

说几个关键点:
- 推理速度:405B在H100上能做到30 tokens/s,但单卡就别想了,至少8卡起步
- 中文能力:比Llama 2强太多,但和Qwen2比还是差一截,建议用中文指令微调后使用
- 部署方案:推荐用vLLM或者TGI,量化用AWQ,能省40%显存

想尝鲜的,Hugging Face上已经有人放出了4-bit量化版本,32GB显存的显卡就能跑70B。配置脚本和API调用示例都整理好了,需要的评论区留个“我要”,我私信发你。

别光看热闹,这波开源对开发者是实打实的利好,赶紧动手试试。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表