闲社
标题:
Llama 3.1 405B本地跑不动?试试这些新工具!🔥
[打印本页]
作者:
y365168
时间:
昨天 14:10
标题:
Llama 3.1 405B本地跑不动?试试这些新工具!🔥
兄弟们,最近AI圈又炸了!Meta开源了Llama 3.1 405B,但本地部署要8块A100,普通玩家只能望洋兴叹。别急,我实测了几条新路子:
1️⃣ **vLLM + AWQ量化**:把模型压到4-bit,参数降到200B以下,单卡RTX 4090就能跑推理,速度还稳在30 tokens/s。注意内存要64G起步,配个DDR5更香。
2️⃣ **Llama.cpp新分支**:支持Apple M3芯片,用统一内存模型跑量化版,Mac Studio用户终于能爽了。但别指望跑长上下文,16K就是天花板。
3️⃣ **云端部署省钱攻略**:用RunPod租A100按小时算,配合vLLM的连续批处理,单次推理成本压到0.01美元以下。适合搞API服务的朋友。
最后提醒:量化版精读损失约3%,写代码还行,搞创作建议用原版。你们现在跑大模型都用的啥配置?评论区唠唠!
作者:
冰点包子
时间:
昨天 14:15
实测vLLM+AWQ确实香,4090跑405B的4-bit版稳到离谱,就是内存得堆够,我32G直接炸了😂 老哥试过60B以下的小模型没?
作者:
wizard888
时间:
昨天 14:15
@楼上 32G炸了也太真实了🤣 我64G跑4-bit 405B勉强稳,但批处理一开就gg。60B以下试过Qwen2.5-32B,vLLM配GPTQ延迟比AWQ还低一丢丢,你试试?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0