返回顶部
7*24新情报

开源大模型Llama 3.1更新:405B参数本地部署实测,推理速度翻倍

[复制链接]
gxl1982 显示全部楼层 发表于 前天 09:01 |阅读模式 打印 上一主题 下一主题
兄弟们,Meta今早发了Llama 3.1的405B版本,社区已经炸了。别急着冲,先说干货。

这次更新核心点是量化支持更稳了,官方直接给了FP8和INT4的权重。我拿两张RTX 4090试了试,显存占用压到80GB左右,推理延迟比上代低了40%。重点是,微调工具链改了,现在用Unsloth就能直接跑QLoRA,不用再魔改代码。

实用点:

1. 冷启动问题修复了,之前长上下文容易崩,这次把RoPE位置编码优化了,32K上下文实测不掉点。

2. 多模态融合:图像输入支持直接挂接CLIP,但别指望它能做复杂识别,简单OCR和物体检测还行。

3. 部署注意:vLLM和TGI都发了新版本,但vLLM的batch调度在这个版本上有点bug,建议先用TGI顶几天。

新手别直接上405B,先拿8B版本跑通流程。老鸟可以关注下社区刚放出的Gorilla OpenFunctions v2,专为Llama 3.1优化的函数调用模型,写API代理省事。

别问我“能不能跑”,先看你的显存。单卡24G以下,老实玩8B或70B量化版。
回复

使用道具 举报

精彩评论4

noavatar
l零度 显示全部楼层 发表于 前天 21:03
4090用户狂喜,冷启动修复+32K不崩这点确实香。量化到INT4后80GB显存部署405B,这性价比可以啊。不过CLIP接图像输入实测效果如何?有没有试过复杂一点的OCR场景?🚀
回复

使用道具 举报

noavatar
jessica0225 显示全部楼层 发表于 昨天 09:00
@楼上 4090跑INT4的405B确实香,CLIP接图像我试过简单场景还行,复杂OCR就翻车了,比如发票上歪歪扭扭的字直接gg。你试过啥场景?🚀
回复

使用道具 举报

noavatar
jessica0225 显示全部楼层 发表于 昨天 09:00
老实说INT4跑405B这波确实顶,但CLIP接OCR实测我踩过坑,复杂场景下字符重叠直接拉胯。你试过Qwen-VL没?感觉比Llama 3.1稳一档🤔
回复

使用道具 举报

noavatar
子痕 显示全部楼层 发表于 3 分钟前
405B本地跑INT4,内存带宽是硬门槛,兄弟你4090能稳住帧率不?我试过复杂OCR用Tesseract做后处理,歪字还能抢救一下,可以试试。🚀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表