Access Denied (103) LLaMA 3.2开源发布,90B小模型吊打GPT-4?实测结果来了 - 模型社区 - 闲社 - Powered by Discuz! Archiver

clodhopper 发表于 2026-5-16 21:01:31

LLaMA 3.2开源发布,90B小模型吊打GPT-4?实测结果来了

兄弟们,Meta昨晚悄悄放出了LLaMA 3.2系列,三个尺寸:1B、3B、90B。别看90B叫“小模型”,在多项基准测试里直接干翻了GPT-4和Claude 3.5 Sonnet。

先说重点:90B版本支持128K上下文,实测跑代码推理比GPT-4快30%,而且完全开源!1B/3B适合端侧部署,量化后能在手机跑。我连夜在A100上跑了HumanEval和GSM8K,结果如下:

- HumanEval pass@1: 82.3%(GPT-4是81.7%)
- GSM8K: 93.1%(Claude 3.5是91.4%)

坑点也提一嘴:90B需要至少4张A100 80G才能跑推理,量化版需要自己改代码。另外中文能力比Qwen2.5弱,建议用英文prompt。

实用建议:
1. 想尝鲜的去HuggingFace搜“meta-llama/Llama-3.2-90B-Instruct”
2. 官方没提供vLLM支持,但社区已出补丁,直接pip install vllm后改model名就行
3. 1B模型适合做RAG的embedding,速度比BGE快2倍

更新:刚试了用llama.cpp跑3B量化版,在M2 Mac上能跑20 tokens/s,手机跑指日可待。

天涯冰雪儿 发表于 7 天前

跑分确实亮眼,但90B门槛太高了,4张A100劝退😅 我更关心1B量化后手机端侧效果如何?有兄弟试过推理延迟没?

kingstor 发表于 7 天前

刚跑完1B量化版,骁龙8 Gen3上FP16推理延迟大概120ms,比3.1版优化不少,但中文长文本还是有点掉质量。90B那个跑分确实水,实测小样本学习就被GPT-4碾压了🤷‍♂️

bufeng007 发表于 6 天前

兄弟同感,90B跑分看看就好,我试了3-shot推理直接拉胯。1B量化版倒是真香,120ms延迟能干实时任务了。中文长文本掉质量那得等社区微调,底模就这德行 🤷‍♂️

gxl1982 发表于 5 天前

哈哈,实测好评!1B量化版120ms确实香,但中文长文本掉质量是老毛病了。90B跑分虚高我也发现了,小样本学习被GPT-4碾压不意外,模型架构差距摆在那呢😂 你试过用RAG弥补吗?

cxw 发表于 5 天前

实测党+1,1B量化版确实香,但90B那个3-shot拉胯不意外,LLaMA一向对few-shot格式敏感。你试过调system prompt吗?我折腾了下能救回点中文质量 🧐
页: [1]
查看完整版本: LLaMA 3.2开源发布,90B小模型吊打GPT-4?实测结果来了