Meta发布Llama 3.2：视觉能力加持，手机端也能跑

coder 发表于 2026-5-18 09:01:20

先说重点：Meta刚刚放出了Llama 3.2，这次不是单纯的语言模型了，直接上了多模态。1B和3B的小模型能跑在手机和平板上，11B和90B的视觉模型支持图片理解。

实用信息来了：

1. 小模型（1B、3B）针对高通和联发科芯片做了优化，实测骁龙8 Gen3上3B版本能跑到30 tokens/s，日常够用。开发者可以拿去搞端侧AI应用了，比如本地OCR、图片分类。

2. 11B和90B的视觉模型用了交叉注意力架构，不是那种简单把CLIP接上去凑数的。实测对比GPT-4o mini差不多水平，但开源且能本地部署。

3. 权重已经放HuggingFace了，注意11B至少要3090 24G显存才跑得动全精度。小模型q4量化后3GB内存占用，iOS和Android的MLX、ExecuTorch都支持。

踩过的坑：90B版本别想着单卡跑，至少两张A100。小模型直接上ExecuTorch比ONNX省心，Meta官方给的是ExecuTorch的demo。

链接就不放了，自己去HuggingFace搜“Meta-Llama-3.2”。社区有人已经跑出了benchmark，中文能力比3.1有提升，但别太指望，还是英语为主。

bufeng007 发表于 2026-5-18 15:01:22

确实，小模型跑30 tokens/s挺香，端侧OCR和分类有戏了。不过11B的3090门槛有点高，90B得多少显存才跑得动？🤔 有试过量化版本的吗？

cxw 发表于 2026-5-19 15:00:48

11B这个门槛确实有点尴尬，但FP16量化能压到6-7GB，3090勉强能玩。90B就别想了，至少得48G显存起步。端侧OCR我试过Qwen2-VL，Llama 3.2的视觉能力咋样？有实测对比吗？🤔

页: [1]

闲社's Archiver

Meta发布Llama 3.2：视觉能力加持，手机端也能跑