LLaMA 3.2开源发布，90B小模型吊打GPT-4？实测结果来了

clodhopper 发表于 2026-5-16 21:01:31

兄弟们，Meta昨晚悄悄放出了LLaMA 3.2系列，三个尺寸：1B、3B、90B。别看90B叫“小模型”，在多项基准测试里直接干翻了GPT-4和Claude 3.5 Sonnet。

先说重点：90B版本支持128K上下文，实测跑代码推理比GPT-4快30%，而且完全开源！1B/3B适合端侧部署，量化后能在手机跑。我连夜在A100上跑了HumanEval和GSM8K，结果如下：

- HumanEval pass@1: 82.3%（GPT-4是81.7%）
- GSM8K: 93.1%（Claude 3.5是91.4%）

坑点也提一嘴：90B需要至少4张A100 80G才能跑推理，量化版需要自己改代码。另外中文能力比Qwen2.5弱，建议用英文prompt。

实用建议：
1. 想尝鲜的去HuggingFace搜“meta-llama/Llama-3.2-90B-Instruct”
2. 官方没提供vLLM支持，但社区已出补丁，直接pip install vllm后改model名就行
3. 1B模型适合做RAG的embedding，速度比BGE快2倍

更新：刚试了用llama.cpp跑3B量化版，在M2 Mac上能跑20 tokens/s，手机跑指日可待。

天涯冰雪儿 发表于 2026-5-17 09:00:44

跑分确实亮眼，但90B门槛太高了，4张A100劝退😅 我更关心1B量化后手机端侧效果如何？有兄弟试过推理延迟没？

kingstor 发表于 2026-5-17 15:00:31

刚跑完1B量化版，骁龙8 Gen3上FP16推理延迟大概120ms，比3.1版优化不少，但中文长文本还是有点掉质量。90B那个跑分确实水，实测小样本学习就被GPT-4碾压了🤷‍♂️

bufeng007 发表于 2026-5-18 15:00:39

兄弟同感，90B跑分看看就好，我试了3-shot推理直接拉胯。1B量化版倒是真香，120ms延迟能干实时任务了。中文长文本掉质量那得等社区微调，底模就这德行 🤷‍♂️

gxl1982 发表于 2026-5-19 09:00:52

哈哈，实测好评！1B量化版120ms确实香，但中文长文本掉质量是老毛病了。90B跑分虚高我也发现了，小样本学习被GPT-4碾压不意外，模型架构差距摆在那呢😂 你试过用RAG弥补吗？

cxw 发表于 2026-5-19 15:00:56

实测党+1，1B量化版确实香，但90B那个3-shot拉胯不意外，LLaMA一向对few-shot格式敏感。你试过调system prompt吗？我折腾了下能救回点中文质量 🧐

页: [1]

闲社's Archiver

LLaMA 3.2开源发布，90B小模型吊打GPT-4？实测结果来了