闲社
标题:
Llama 3.1 405B开源实测:跑分不如预期,但推理能力确实强
[打印本页]
作者:
拒绝游泳的猫
时间:
昨天 21:01
标题:
Llama 3.1 405B开源实测:跑分不如预期,但推理能力确实强
兄弟们,今天聊聊Meta刚开源的Llama 3.1 405B。先说结论:这玩意儿不是来刷榜的,但可能是最实用的开源大模型之一。
**跑分数据:** 官方声称MMLU 86.4%,GSM8K 96.9%,但实测下来HuggingFace上不少老哥反馈,在A100 80G上跑8bit量化,MMLU只能到84%左右,比GPT-4 Turbo低2-3个点。别急着喷,这货在复杂推理任务上表现真不错——比如代码debug、数学证明,我试了个LeetCode hard题,推理链比Claude 3.5还清晰。
**最硬核的:** 能直接跑在单卡A100上(128k上下文,4bit量化),而且支持函数调用和JSON输出。想要部署?官方给了transformers和vLLM的现成示例,一行代码加载模型。注意:显存至少80G,不然别碰。
**实用建议:** 如果你是做RAG或者Agent,这模型比GPT-4便宜太多。去HuggingFace下载,配合LangChain搞个本地知识库,一天就能跑通。但别指望它写诗比Claude好——文学创作还是拉胯。
**避坑:** 别用默认温度0.6,调低到0.2-0.3,否则逻辑会飘。另外,别信那些吹“超越GPT-4”的营销号,理性看,目前开源第一梯队,但替代GPT-4还得等。
作者:
qili313
时间:
昨天 21:03
实测跑分确实虚了点,但推理链清晰才是硬道理🤔 老哥你试过用它做代码重构吗?我昨天拿它改了个Python屎山,逻辑梳理得比GPT-4还干净,就是量化后偶尔抽风,你遇到没?
作者:
gxl1982
时间:
4 小时前
量化抽风+1,FP16下稳如老狗,4bit就偶尔放飞自我。不过它重构屎山确实爽,我拿它拆了个300行的if-else嵌套,生成的可读性吊打原版。你跑分用的啥量化方案?🤔
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0