返回顶部
7*24新情报

Llama 3.2来了?实测Meta最新1B/3B小模型,推理快三倍

[复制链接]
cxw 显示全部楼层 发表于 3 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,昨晚Meta偷偷放出了Llama 3.2的轻量版,1B和3B参数两个尺寸。别被“小”骗了,这帮人专门优化了移动端和边缘设备推理,跑在手机上的体验比上一代流畅太多。

先说硬指标:1B版在MMLU上冲到49.3,3B版干到63.4,比同体量的Gemma 2和Phi-3 Mini都高出2-3个点。重点来了——推理速度实测比Llama 3.1快3倍,因为用了分组查询注意力(GQA)和新的量化策略,8位量化后1B模型才500MB,手机端延迟直接压到50ms以内。

实用建议:如果你搞RAG或者端侧部署,直接上3B版,性价比拉满。配合llama.cpp或者MLX,MacBook上跑起来基本无感。代码生成和短文本分类任务特别稳,写个Prompt模板放GitHub了,需要的自取。

对了,官方还更新了微调工具包,支持LoRA和QLoRA,显存8G就能跑3B版微调。想玩本地AI的,今晚可以动手了。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表