兄弟们,Meta终于放了大招。昨晚Llama 3.1 405B正式开源,参数规模直接干到4050亿,还支持128K上下文。实测下来,在数学推理和代码生成上碾压了GPT-4,而且完全免费商用。
先泼盆冷水:这玩意儿不是你能随便跑的。405B参数,显存至少需要800GB以上,目前只有H100集群才玩得转。不过好消息是,Meta同步放出了8B和70B版本,70B版本在消费级显卡上也能跑,RTX 4090配24GB显存勉强能玩8B量化版。
说几个关键点:
- 推理速度:405B在H100上能做到30 tokens/s,但单卡就别想了,至少8卡起步
- 中文能力:比Llama 2强太多,但和Qwen2比还是差一截,建议用中文指令微调后使用
- 部署方案:推荐用vLLM或者TGI,量化用AWQ,能省40%显存
想尝鲜的,Hugging Face上已经有人放出了4-bit量化版本,32GB显存的显卡就能跑70B。配置脚本和API调用示例都整理好了,需要的评论区留个“我要”,我私信发你。
别光看热闹,这波开源对开发者是实打实的利好,赶紧动手试试。 |