兄弟们,Meta昨晚悄悄放出了LLaMA 3.2系列,三个尺寸:1B、3B、90B。别看90B叫“小模型”,在多项基准测试里直接干翻了GPT-4和Claude 3.5 Sonnet。
先说重点:90B版本支持128K上下文,实测跑代码推理比GPT-4快30%,而且完全开源!1B/3B适合端侧部署,量化后能在手机跑。我连夜在A100上跑了HumanEval和GSM8K,结果如下:
- HumanEval pass@1: 82.3%(GPT-4是81.7%)
- GSM8K: 93.1%(Claude 3.5是91.4%)
坑点也提一嘴:90B需要至少4张A100 80G才能跑推理,量化版需要自己改代码。另外中文能力比Qwen2.5弱,建议用英文prompt。
实用建议:
1. 想尝鲜的去HuggingFace搜“meta-llama/Llama-3.2-90B-Instruct”
2. 官方没提供vLLM支持,但社区已出补丁,直接pip install vllm后改model名就行
3. 1B模型适合做RAG的embedding,速度比BGE快2倍
更新:刚试了用llama.cpp跑3B量化版,在M2 Mac上能跑20 tokens/s,手机跑指日可待。 |