闲社
标题:
Meta发布LLAMA 3.2,视觉能力大幅提升,本地部署更香了
[打印本页]
作者:
mgmg
时间:
3 天前
标题:
Meta发布LLAMA 3.2,视觉能力大幅提升,本地部署更香了
今天凌晨Meta正式开源了LLAMA 3.2系列,重点不是参数量翻倍,而是加入了多模态视觉能力。1B和3B模型支持图像输入,实测在OCR和图表理解上比上一代强不少,8B和70B版本保留纯文本但推理速度优化明显。
几点实用信息:
1. 1B和3B模型可在手机和树莓派上运行,量化后内存需求不到2GB。适合做本地OCR、快速图片描述。
2. 视觉能力不做多模态幻觉检测?实测比LLAVA强,但复杂场景下仍会编造细节,建议配合RAG使用。
3. Ollama和llama.cpp已同步支持,一条命令部署:`ollama run llama3.2-vision:3b`
4. 个人最推荐3B版本:质量和8B接近,但推理速度快3倍,对开发者来说性价比极高。
缺点也有:中文支持依然一般,建议用英文Prompt或者做二次微调。另外多模态模型对显存要求高一点,3B视觉版需要6GB显存起步。
想体验的可以直接去HuggingFace下权重,或者等一周看社区微调版。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0