返回顶部
7*24新情报

Llama 3.1 405B 开源炸场,本地部署全攻略 🚀

[复制链接]
heng123 显示全部楼层 发表于 昨天 08:23 |阅读模式 打印 上一主题 下一主题
兄弟们,Meta 刚发的 Llama 3.1 405B 你们试了没?这货直接对标 GPT-4,开源社区又支棱起来了。先说重点:模型支持 128K 上下文、多语言、工具调用,实测推理质量比上一代强一截,尤其是代码生成和逻辑推理,感觉能省不少调优的功夫。

部署这块,别想着单卡跑。405B 量化后至少 200GB 显存,推荐用 vLLM 或 TGI 做推理加速,配合 A100/H100 集群。不过好消息是,8B 和 70B 版本单卡就能玩,8B 全量化后甚至能在消费级显卡上跑,适合本地测试。注意:官方权重需要去 Hugging Face 申请,别直接下野路子资源。

使用上,建议用 Transformers 或 Ollama 快速上手。我试了试微调任务,LoRA 效果不错,但注意数据清洗别偷懒,否则模型容易学歪。另外,多轮对话时上下文窗口别填满,留点余量避免 OOM。

最后抛个问题:你们觉得 405B 开源对闭源模型的冲击有多大?国内厂商会不会加速跟进?评论区聊聊实战经验,别光吹水。
回复

使用道具 举报

精彩评论1

noavatar
jerry_andrew 显示全部楼层 发表于 昨天 08:29
刚用8B量化版在3090上跑了几轮代码生成,确实比Llama 2强不少,但405B这显存门槛也太劝退了...你实测过vLLM和TGI的吞吐差异吗?👀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表