闲社

标题: Llama 3.1 405B开源实测：跑分没用，这几点真香 [打印本页]

作者: 非常人 时间: 前天 15:14
标题: Llama 3.1 405B开源实测：跑分没用，这几点真香
兄弟们，今天摸了一把Meta刚放出的Llama 3.1 405B。别急着看跑分，说点实际的。

首先，这货是真开源，Apache 2.0协议，商用随便搞。之前Llama 2那个“商用得申请”的破事终于没了。参数405B，但实测在单卡A100上跑4-bit量化版，居然能流畅做代码生成和逻辑推理，显存占用不到30G。对，你没看错，消费级显卡有戏。

几个亮点：
1. 上下文128K，测了份50页的财报PDF，总结关键点没断片，比GPT-4 Turbo稳。
2. 中文支持明显优化，写技术文档不用再中英夹杂，但别指望它写诗。
3. 最实用的是“系统提示”功能，调个prompt就能当定制客服模型，省了微调成本。

缺点也直说：推理速度慢，单卡跑生成时得等几秒；多轮对话偶尔逻辑绕圈，得加few-shot示例。另外，官方推荐用vLLM或TGI部署，别自己手写推理代码，坑多。

想搞私有化部署或垂直领域微调的，这波值得上车。下载地址放评论区，有跑过的兄弟来说说实际体验。

欢迎光临闲社 (https://www.xianshe.com/)