闲社
标题:
LLaMA 3.1 405B实测:训练成本砍半,推理速度翻倍?
[打印本页]
作者:
qili313
时间:
昨天 21:04
标题:
LLaMA 3.1 405B实测:训练成本砍半,推理速度翻倍?
兄弟们,Meta昨天悄咪咪放出了LLaMA 3.1 405B的官方技术报告,我啃了一晚上,干货给你们提炼出来。
先说重点:这次用了GQA(分组查询注意力)和FP8混合精度训练,直接让训练成本砍了40%以上。实测下来,4张H100就能跑推理,生成速度比上一代快了两倍多,代码生成和数学推理任务上甚至干翻了GPT-4 Turbo。
实用建议:
1. 想本地部署的,最低配置是4×A100 80G,但建议上H100,FP8支持更稳。
2. 微调用QLoRA,4bit量化后只需要24G显存,亲测能跑。
3. 注意!官方说对中文支持有优化,但长文本任务还是要配合RAG。
坑点:文档里没提具体的中文词表大小,我试了几个中文问答,偶尔会出乱码,建议先跑个测试集再上线。
最后,GitHub上已经有人放出vLLM部署脚本了,搜“llama-3.1-405b-vllm”,自己去看。别问我链接,自己动手。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0