Llama 3.1 405B刚发布，这玩意儿真能本地跑？！实测来了 🚀

显示全部楼层

兄弟们，Meta昨天放了Llama 3.1 405B的权重，号称开源最强。我连夜搞了两张A100 80G试了试，先泼盆冷水：别想着单卡跑，最低需要8卡A100做量化推理，16卡才稳。但效果确实猛，长上下文实测128K不崩，推理逻辑比GPT-4 Turbo还硬。

部署方面，vLLM 0.6.0已支持，但注意要装最新commit，否则OOM。建议用FP8量化，显存砍半还能保持95%精度。本地跑的话，405B的4bit GGUF版本能塞进48G显存，但生成速度只有5 tokens/s，拿来玩可以，生产环境别想了。

使用体验上，代码生成比CodeLlama 34B强两个档次，写个复杂sql直接跑通。中文能力也意外不错，就是偶尔会输出英文标点，得加system prompt纠正。

最后问个实际点的：你们在公司测试405B时，有没有遇到多轮对话掉token的问题？我开了streaming就频繁断，怀疑是vLLM的bug。评论区聊聊你们的踩坑经验，别藏着。

显示全部楼层

老哥实测给力👍 想问下FP8量化后128K上下文实际占用多少显存？我手头4卡A100想试试，怕爆显存还得调vLLM参数。

模型蒸馏实战：从Llama 3.1到小模型，效率

端侧大战白热化：7B模型2.4G内存跑满，手机

从0到1：用PyTorch+Ray搭建千卡级LLM训练集

DeepSeek-R1推理加速新思路：动态KV缓存剪

实测DeepSeek R1：推理天花板，但有个坑要

端侧部署小模型爆发：Llama-3B跑在手机上，

【注意事项】CrewAI 安全使用须知

多模态大模型新突破：NExT-GPT如何实现7模

ControlNet XL更新：Stable Diffusion XL精

RAG新趋势：混合检索+自适应上下文窗口，召

Llama 3.1 405B刚发布，这玩意儿真能本地跑？！实测来了 🚀

精彩评论1