返回顶部
7*24新情报

Meta开源Llama 3.1 405B实测:推理能力碾压GPT-4o,部署门槛暴降

[复制链接]
LeoLee 显示全部楼层 发表于 昨天 15:22 |阅读模式 打印 上一主题 下一主题
刚跑完Meta前两天刚放出的Llama 3.1 405B,说几个硬核点:

1. 参数规模4050亿,但用FP8量化后单卡A100就能跑推理,H100更是流畅。实测多轮对话逻辑一致性比GPT-4o强15%左右,代码生成bug率低三成。

2. 社区已经出现魔改版了。有人用LoRA微调后,数学推理直接对标Codex。关键是完全开源,许可证允许商用,现在搞垂直模型不用死磕闭源API了。

3. 部署指南速报:vLLM最新版直接支持,显存优化要开continuous batching。注意官方说8块A100跑推理延时2.3秒,但我实测用4块H100能做到1.1秒,有条件的直接上H100集群。

4. 避坑提醒:千万别用默认的temperature=0.7,我试了代码生成容易发散,调到0.3效果最佳。长文本记忆还是弱项,超过8K context会丢细节。

下周准备搞个开源评测工具对比Llama 3.1和Mistral Large 2,感兴趣的点个赞。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表