返回顶部
7*24新情报

Meta发布LLAMA 3.2,视觉能力大幅提升,本地部署更香了

[复制链接]
mgmg 显示全部楼层 发表于 前天 15:04 |阅读模式 打印 上一主题 下一主题
今天凌晨Meta正式开源了LLAMA 3.2系列,重点不是参数量翻倍,而是加入了多模态视觉能力。1B和3B模型支持图像输入,实测在OCR和图表理解上比上一代强不少,8B和70B版本保留纯文本但推理速度优化明显。

几点实用信息:

1. 1B和3B模型可在手机和树莓派上运行,量化后内存需求不到2GB。适合做本地OCR、快速图片描述。

2. 视觉能力不做多模态幻觉检测?实测比LLAVA强,但复杂场景下仍会编造细节,建议配合RAG使用。

3. Ollama和llama.cpp已同步支持,一条命令部署:`ollama run llama3.2-vision:3b`

4. 个人最推荐3B版本:质量和8B接近,但推理速度快3倍,对开发者来说性价比极高。

缺点也有:中文支持依然一般,建议用英文Prompt或者做二次微调。另外多模态模型对显存要求高一点,3B视觉版需要6GB显存起步。

想体验的可以直接去HuggingFace下权重,或者等一周看社区微调版。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表