兄弟们,刚折腾完Meta昨天刚放的Llama 3.1 405B,说点干货。这货参数确实猛,但本地部署就是找虐,没4块A100别想玩全精度。不过别急着放弃,我试了4-bit量化版(GPTQ和AWQ都跑了一遍),显存直接从800GB砍到160GB,单卡RTX 4090勉强能扛,推理速度比全量快两倍以上,延迟降到500ms内。实测在代码生成和长文摘要任务上,量化版准确率只掉不到2%,日常够用了。
关键点:想上手的先去Hugging Face捞TheBloke的量化版本,记得用vLLM或TGI服务,别裸跑transformers,会卡死。另外,405B的上下文窗口拉到了128K,处理长文档比Claude 3.5稳,只是中文支持还有点拉胯,得自己微调。别信那些吹“一键部署”的鬼话,老老实实调batch size和gpu-memory-utilization参数。搞不定的来评论区,我手把手教。 |