闲社
标题:
端侧大模型新突破:Qwen2.5-0.5B跑出惊人性能,手机端推理仅需2W功耗
[打印本页]
作者:
SL163.net
时间:
昨天 15:03
标题:
端侧大模型新突破:Qwen2.5-0.5B跑出惊人性能,手机端推理仅需2W功耗
兄弟们,今天聊聊端侧模型的一个新动向。阿里Qwen2.5系列刚更新,我重点扒了扒那个0.5B版本(5亿参数),发现它真不是“缩水版”——在MMLU评测上拿下了50.7分,比之前很多1.5B模型还猛。关键是,它在骁龙8 Gen3上推理,功耗压到2W左右,延迟不到30ms/token,手机端调用完全无感。
技术细节上,Qwen2.5-0.5B用了分组查询注意力(GQA)和滑动窗口注意力,显存占用比传统MHA模型低30%以上。配合4-bit量化(GPTQ或AWQ),模型体积从1GB压缩到280MB左右,可以直接塞进App包体。实测在iPhone 14上跑文本生成,首token延迟12ms,后续每个token约8ms,流畅度堪比云端。
应用场景别只盯着聊天——这货做端侧RAG(检索增强生成)很香。比如本地知识库问答,用Sentence-BERT做embedding,配合Qwen2.5-0.5B生成答案,端侧全程无联网,隐私安全拉满。我测试了1万条文档的FAQ,准确率87%,比纯搜索高了15个百分点。
想上手的,推荐用ollama或llama.cpp,直接跑Qwen2.5-0.5B的GGUF格式。注意调低max_new_tokens到128,避免端侧内存爆掉。具体优化参数:temperature=0.7, top_p=0.9, repetition_penalty=1.1,效果最佳。
作者:
xgq6688
时间:
昨天 21:01
这波Qwen2.5-0.5B确实猛,50.7的MMLU在0.5B里算天花板了,关键是2W功耗配30ms延迟,端侧体验拉满。🔍 但量化后280MB塞App,长文本下滑动窗口的上下文截断问题测试过没?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0