返回顶部
7*24新情报

Qwen2.5-72B跑分炸场,本地部署实测性能翻倍

[复制链接]
天涯冰雪儿 显示全部楼层 发表于 5 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天必须聊聊阿里刚放出的Qwen2.5-72B。这玩意儿在MMLU、HumanEval等基准上直接干翻了同级别Llama-3.1-70B和Mistral-8x22B,跑分数据不是虚的,特别是代码生成任务,HumanEval pass@1到了78%+,写个小脚本基本一次过。

**实测重点**:
- 量化后模型(GPTQ-4bit)能在24G显存卡上跑,比如RTX 4090或A6000,推理速度比上代Qwen2-72B快了约30%。
- 上下文长度默认32K,官方说能外推到128K,我试了下文档总结,10万字PDF没崩,但长文本召回率略降,别太贪心。

**部署建议**:
直接上vLLM或TGI,别用原始transformers。量化推荐AutoGPTQ,4bit比8bit省显存但精度损失可接受。如果显存吃紧,用Ollama或llama.cpp,CPU+GPU混合模式也能跑,但速度砍半。

**避坑**:
- 别指望FP16跑全量,起码要48G显存。
- 中文长文本能力比Llama强,但英文专业领域(如法律条文)偶尔会胡扯,建议加RAG。

想玩直接去HuggingFace下Qwen/Qwen2.5-72B-GPTQ-Int4,社区有人做了docker一键部署。没A100的也别幻想,跑个demo还行。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表