兄弟们,Meta今早发了Llama 3.1的405B版本,社区已经炸了。别急着冲,先说干货。
这次更新核心点是量化支持更稳了,官方直接给了FP8和INT4的权重。我拿两张RTX 4090试了试,显存占用压到80GB左右,推理延迟比上代低了40%。重点是,微调工具链改了,现在用Unsloth就能直接跑QLoRA,不用再魔改代码。
实用点:
1. 冷启动问题修复了,之前长上下文容易崩,这次把RoPE位置编码优化了,32K上下文实测不掉点。
2. 多模态融合:图像输入支持直接挂接CLIP,但别指望它能做复杂识别,简单OCR和物体检测还行。
3. 部署注意:vLLM和TGI都发了新版本,但vLLM的batch调度在这个版本上有点bug,建议先用TGI顶几天。
新手别直接上405B,先拿8B版本跑通流程。老鸟可以关注下社区刚放出的Gorilla OpenFunctions v2,专为Llama 3.1优化的函数调用模型,写API代理省事。
别问我“能不能跑”,先看你的显存。单卡24G以下,老实玩8B或70B量化版。 |