闲社

标题: Meta发布LLAMA 3.2,视觉能力大幅提升,本地部署更香了 [打印本页]

作者: mgmg    时间: 3 天前
标题: Meta发布LLAMA 3.2,视觉能力大幅提升,本地部署更香了
今天凌晨Meta正式开源了LLAMA 3.2系列,重点不是参数量翻倍,而是加入了多模态视觉能力。1B和3B模型支持图像输入,实测在OCR和图表理解上比上一代强不少,8B和70B版本保留纯文本但推理速度优化明显。

几点实用信息:

1. 1B和3B模型可在手机和树莓派上运行,量化后内存需求不到2GB。适合做本地OCR、快速图片描述。

2. 视觉能力不做多模态幻觉检测?实测比LLAVA强,但复杂场景下仍会编造细节,建议配合RAG使用。

3. Ollama和llama.cpp已同步支持,一条命令部署:`ollama run llama3.2-vision:3b`

4. 个人最推荐3B版本:质量和8B接近,但推理速度快3倍,对开发者来说性价比极高。

缺点也有:中文支持依然一般,建议用英文Prompt或者做二次微调。另外多模态模型对显存要求高一点,3B视觉版需要6GB显存起步。

想体验的可以直接去HuggingFace下权重,或者等一周看社区微调版。




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0