闲社
标题:
Qwen2.5-72B跑分炸场,本地部署实测性能翻倍
[打印本页]
作者:
天涯冰雪儿
时间:
5 小时前
标题:
Qwen2.5-72B跑分炸场,本地部署实测性能翻倍
兄弟们,今天必须聊聊阿里刚放出的Qwen2.5-72B。这玩意儿在MMLU、HumanEval等基准上直接干翻了同级别Llama-3.1-70B和Mistral-8x22B,跑分数据不是虚的,特别是代码生成任务,HumanEval pass@1到了78%+,写个小脚本基本一次过。
**实测重点**:
- 量化后模型(GPTQ-4bit)能在24G显存卡上跑,比如RTX 4090或A6000,推理速度比上代Qwen2-72B快了约30%。
- 上下文长度默认32K,官方说能外推到128K,我试了下文档总结,10万字PDF没崩,但长文本召回率略降,别太贪心。
**部署建议**:
直接上vLLM或TGI,别用原始transformers。量化推荐AutoGPTQ,4bit比8bit省显存但精度损失可接受。如果显存吃紧,用Ollama或llama.cpp,CPU+GPU混合模式也能跑,但速度砍半。
**避坑**:
- 别指望FP16跑全量,起码要48G显存。
- 中文长文本能力比Llama强,但英文专业领域(如法律条文)偶尔会胡扯,建议加RAG。
想玩直接去HuggingFace下Qwen/Qwen2.5-72B-GPTQ-Int4,社区有人做了docker一键部署。没A100的也别幻想,跑个demo还行。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0