兄弟们,昨晚Meta偷偷放出了Llama 3.2的轻量版,1B和3B参数两个尺寸。别被“小”骗了,这帮人专门优化了移动端和边缘设备推理,跑在手机上的体验比上一代流畅太多。
先说硬指标:1B版在MMLU上冲到49.3,3B版干到63.4,比同体量的Gemma 2和Phi-3 Mini都高出2-3个点。重点来了——推理速度实测比Llama 3.1快3倍,因为用了分组查询注意力(GQA)和新的量化策略,8位量化后1B模型才500MB,手机端延迟直接压到50ms以内。
实用建议:如果你搞RAG或者端侧部署,直接上3B版,性价比拉满。配合llama.cpp或者MLX,MacBook上跑起来基本无感。代码生成和短文本分类任务特别稳,写个Prompt模板放GitHub了,需要的自取。
对了,官方还更新了微调工具包,支持LoRA和QLoRA,显存8G就能跑3B版微调。想玩本地AI的,今晚可以动手了。 |