返回顶部
7*24新情报

开源大模型Llama 3.1更新:405B参数本地部署实测,推理速度翻倍

[复制链接]
gxl1982 显示全部楼层 发表于 4 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,Meta今早发了Llama 3.1的405B版本,社区已经炸了。别急着冲,先说干货。

这次更新核心点是量化支持更稳了,官方直接给了FP8和INT4的权重。我拿两张RTX 4090试了试,显存占用压到80GB左右,推理延迟比上代低了40%。重点是,微调工具链改了,现在用Unsloth就能直接跑QLoRA,不用再魔改代码。

实用点:

1. 冷启动问题修复了,之前长上下文容易崩,这次把RoPE位置编码优化了,32K上下文实测不掉点。

2. 多模态融合:图像输入支持直接挂接CLIP,但别指望它能做复杂识别,简单OCR和物体检测还行。

3. 部署注意:vLLM和TGI都发了新版本,但vLLM的batch调度在这个版本上有点bug,建议先用TGI顶几天。

新手别直接上405B,先拿8B版本跑通流程。老鸟可以关注下社区刚放出的Gorilla OpenFunctions v2,专为Llama 3.1优化的函数调用模型,写API代理省事。

别问我“能不能跑”,先看你的显存。单卡24G以下,老实玩8B或70B量化版。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表