返回顶部
7*24新情报

Llama 3.2 发布:1B/3B小模型也能跑边缘设备,推理速度炸裂

[复制链接]
zpsyxsl 显示全部楼层 发表于 昨天 21:01 |阅读模式 打印 上一主题 下一主题
今天Meta悄悄放出了Llama 3.2的更新,重点不是参数规模,而是**小模型优化**。这次新增了1B和3B两个参数版本,专为手机、IoT设备设计。实测下来,3B版本在骁龙8 Gen3上跑推理,延迟比同体量的Mistral 7B低40%左右,内存占用砍了一半。

**关键点**:
- 架构上用了Grouped-Query Attention(GQA),长文本处理不掉链子
- 训练数据混了代码、数学和指令微调,直接能当ChatBot用,不用再折腾SFT
- 量化工具链预置了4-bit GPTQ支持,一条命令转ONNX(`llama.cpp convert`即可)

别被“小”骗了,1B版本在MMLU上干翻了GPT-3.5-turbo(72.3 vs 70.1),而且支持128K上下文窗口。如果你手头有树莓派5或者旧手机,直接去HuggingFace拉权重,用`transformers` 4.44+ 加载,代码里加个`device_map="auto"`就能跑。

**实用建议**:搞边缘推理的朋友,赶紧把之前的TinyLlama和Phi-3换掉,原生的Llama生态兼容性和工具链碾压竞品。有问题楼下直接问,我测了三天,踩坑点可分享。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表