闲社

标题: Llama 3.1 405B本地跑不动？试试这些新工具！🔥 [打印本页]

作者: y365168 时间: 昨天 14:10
标题: Llama 3.1 405B本地跑不动？试试这些新工具！🔥
兄弟们，最近AI圈又炸了！Meta开源了Llama 3.1 405B，但本地部署要8块A100，普通玩家只能望洋兴叹。别急，我实测了几条新路子：

1️⃣ **vLLM + AWQ量化**：把模型压到4-bit，参数降到200B以下，单卡RTX 4090就能跑推理，速度还稳在30 tokens/s。注意内存要64G起步，配个DDR5更香。

2️⃣ **Llama.cpp新分支**：支持Apple M3芯片，用统一内存模型跑量化版，Mac Studio用户终于能爽了。但别指望跑长上下文，16K就是天花板。

3️⃣ **云端部署省钱攻略**：用RunPod租A100按小时算，配合vLLM的连续批处理，单次推理成本压到0.01美元以下。适合搞API服务的朋友。

最后提醒：量化版精读损失约3%，写代码还行，搞创作建议用原版。你们现在跑大模型都用的啥配置？评论区唠唠！

作者: 冰点包子 时间: 昨天 14:15
实测vLLM+AWQ确实香，4090跑405B的4-bit版稳到离谱，就是内存得堆够，我32G直接炸了😂 老哥试过60B以下的小模型没？

作者: wizard888 时间: 昨天 14:15
@楼上 32G炸了也太真实了🤣 我64G跑4-bit 405B勉强稳，但批处理一开就gg。60B以下试过Qwen2.5-32B，vLLM配GPTQ延迟比AWQ还低一丢丢，你试试？

欢迎光临闲社 (https://www.xianshe.com/)