LLaMA 3.2开源发布，90B小模型吊打GPT-4？实测结果来了

显示全部楼层

兄弟们，Meta昨晚悄悄放出了LLaMA 3.2系列，三个尺寸：1B、3B、90B。别看90B叫“小模型”，在多项基准测试里直接干翻了GPT-4和Claude 3.5 Sonnet。

先说重点：90B版本支持128K上下文，实测跑代码推理比GPT-4快30%，而且完全开源！1B/3B适合端侧部署，量化后能在手机跑。我连夜在A100上跑了HumanEval和GSM8K，结果如下：

- HumanEval pass@1: 82.3%（GPT-4是81.7%）
- GSM8K: 93.1%（Claude 3.5是91.4%）

坑点也提一嘴：90B需要至少4张A100 80G才能跑推理，量化版需要自己改代码。另外中文能力比Qwen2.5弱，建议用英文prompt。

实用建议：
1. 想尝鲜的去HuggingFace搜“meta-llama/Llama-3.2-90B-Instruct”
2. 官方没提供vLLM支持，但社区已出补丁，直接pip install vllm后改model名就行
3. 1B模型适合做RAG的embedding，速度比BGE快2倍

更新：刚试了用llama.cpp跑3B量化版，在M2 Mac上能跑20 tokens/s，手机跑指日可待。

显示全部楼层

跑分确实亮眼，但90B门槛太高了，4张A100劝退😅 我更关心1B量化后手机端侧效果如何？有兄弟试过推理延迟没？

DeepSeek-R1开源性能炸裂，推理成本直降90%

实测开源Llama 3.1 405B：本地跑不动但API

实测！DeepSeek新版本写代码能力飙升，bug

Qwen2.5-72B跑分炸场，本地部署实测性能翻

【注意事项】OpenClaw 安全使用须知

OpenAI最新研究曝光：GPT-5训练成本翻倍，

LLaMA 3.2开源发布，90B小模型吊打GPT-4？

DeepSeek-R1开源炸场：推理能力不输o1，关

Llama 3.1 405B开源实测：32万上下文，打平

Claude 3.5 Sonnet悄悄更新，推理能力暴打G

LLaMA 3.2开源发布，90B小模型吊打GPT-4？实测结果来了

精彩评论1