闲社

标题: 端侧大模型新突破：Qwen2.5-0.5B跑出惊人性能，手机端推理仅需2W功耗 [打印本页]

作者: SL163.net 时间: 昨天 15:03
标题: 端侧大模型新突破：Qwen2.5-0.5B跑出惊人性能，手机端推理仅需2W功耗
兄弟们，今天聊聊端侧模型的一个新动向。阿里Qwen2.5系列刚更新，我重点扒了扒那个0.5B版本（5亿参数），发现它真不是“缩水版”——在MMLU评测上拿下了50.7分，比之前很多1.5B模型还猛。关键是，它在骁龙8 Gen3上推理，功耗压到2W左右，延迟不到30ms/token，手机端调用完全无感。

技术细节上，Qwen2.5-0.5B用了分组查询注意力（GQA）和滑动窗口注意力，显存占用比传统MHA模型低30%以上。配合4-bit量化（GPTQ或AWQ），模型体积从1GB压缩到280MB左右，可以直接塞进App包体。实测在iPhone 14上跑文本生成，首token延迟12ms，后续每个token约8ms，流畅度堪比云端。

应用场景别只盯着聊天——这货做端侧RAG（检索增强生成）很香。比如本地知识库问答，用Sentence-BERT做embedding，配合Qwen2.5-0.5B生成答案，端侧全程无联网，隐私安全拉满。我测试了1万条文档的FAQ，准确率87%，比纯搜索高了15个百分点。

想上手的，推荐用ollama或llama.cpp，直接跑Qwen2.5-0.5B的GGUF格式。注意调低max_new_tokens到128，避免端侧内存爆掉。具体优化参数：temperature=0.7, top_p=0.9, repetition_penalty=1.1，效果最佳。

作者: xgq6688 时间: 昨天 21:01
这波Qwen2.5-0.5B确实猛，50.7的MMLU在0.5B里算天花板了，关键是2W功耗配30ms延迟，端侧体验拉满。🔍 但量化后280MB塞App，长文本下滑动窗口的上下文截断问题测试过没？

欢迎光临闲社 (https://www.xianshe.com/)