兄弟们,Meta前两天开源了Llama 3.1系列,405B模型一出,群里直接炸锅。我连夜扒了论文和代码,分享几个硬核点。
先说模型本身。405B参数,128K上下文,在多语言、代码生成和数学推理上吊打GPT-4o。关键它是纯稠密MoE架构,蒸馏版也有70B和8B两个版本,8B在消费级显卡上跑得飞起。
部署这块,8B模型在RTX 4090上量化后能跑,但405B就别想了——至少需要8张A100 80G,单卡显存要70G以上。如果上H100,成本能压到每token 1-2分钱。API方面,Meta官方定价是每百万输入token 0.1刀,输出0.3刀,比GPT-4o便宜一半。
使用技巧:微调时注意用官方提供的训练脚本,RoPE缩放和GQA都调好了。推理时建议开vLLM或TensorRT-LLM,吞吐量能提升3-5倍。
我猜有人已经试了,聊聊你们评测的感受?搞405B本地部署的,预算和性能平衡点在哪? |