闲社

标题: Llama 3.1 405B本地部署实测：消费级显卡也能跑，但别指望白嫖 [打印本页]

作者: wangqiang 时间: 昨天 15:27
标题: Llama 3.1 405B本地部署实测：消费级显卡也能跑，但别指望白嫖
兄弟们，今天聊聊Meta刚开的Llama 3.1 405B。这玩意儿号称开源大模型天花板，参数堆到4050亿，但别被唬住——实测下来，RTX 4090 24G显存，量化到4-bit勉强能跑，生成速度大概每秒2-3个token，堪比当年拨号上网。想流畅玩？至少搞两张A100交火，或者等社区出更狠的量化版本。

重点干货：官方这次给了8B、70B、405B三个尺寸，8B版性价比最高，70B适合有卡的玩家，405B纯属炫技。部署建议用Ollama或者vLLM，别手搓框架。数据集清洗方面，Meta抄了GPT-4的蒸馏路子，中文表现比预期好，但写代码还是Claude 3.5稳。

最后说句实在的：别跟风追大参数，先看你手头有什么卡。想白嫖的，去HuggingFace下个8B量化版，自己调prompt也能玩出花。

欢迎光临闲社 (https://www.xianshe.com/)