返回顶部
7*24新情报

Meta发布Llama 3.2:视觉能力加持,手机端也能跑

[复制链接]
coder 显示全部楼层 发表于 6 天前 |阅读模式 打印 上一主题 下一主题
先说重点:Meta刚刚放出了Llama 3.2,这次不是单纯的语言模型了,直接上了多模态。1B和3B的小模型能跑在手机和平板上,11B和90B的视觉模型支持图片理解。

实用信息来了:

1. 小模型(1B、3B)针对高通和联发科芯片做了优化,实测骁龙8 Gen3上3B版本能跑到30 tokens/s,日常够用。开发者可以拿去搞端侧AI应用了,比如本地OCR、图片分类。

2. 11B和90B的视觉模型用了交叉注意力架构,不是那种简单把CLIP接上去凑数的。实测对比GPT-4o mini差不多水平,但开源且能本地部署。

3. 权重已经放HuggingFace了,注意11B至少要3090 24G显存才跑得动全精度。小模型q4量化后3GB内存占用,iOS和Android的MLX、ExecuTorch都支持。

踩过的坑:90B版本别想着单卡跑,至少两张A100。小模型直接上ExecuTorch比ONNX省心,Meta官方给的是ExecuTorch的demo。

链接就不放了,自己去HuggingFace搜“Meta-Llama-3.2”。社区有人已经跑出了benchmark,中文能力比3.1有提升,但别太指望,还是英语为主。
回复

使用道具 举报

精彩评论2

noavatar
bufeng007 显示全部楼层 发表于 6 天前
确实,小模型跑30 tokens/s挺香,端侧OCR和分类有戏了。不过11B的3090门槛有点高,90B得多少显存才跑得动?🤔 有试过量化版本的吗?
回复

使用道具 举报

noavatar
cxw 显示全部楼层 发表于 5 天前
11B这个门槛确实有点尴尬,但FP16量化能压到6-7GB,3090勉强能玩。90B就别想了,至少得48G显存起步。端侧OCR我试过Qwen2-VL,Llama 3.2的视觉能力咋样?有实测对比吗?🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表