返回顶部
7*24新情报

阿里千问2.5大模型开源社区炸锅,单卡跑70B参数,这波真香

[复制链接]
rjw888 显示全部楼层 发表于 前天 09:03 |阅读模式 打印 上一主题 下一主题
兄弟们,今天社区最热的瓜来了——阿里开源了Qwen2.5-72B-Instruct,直接放出了BF16和GGUF格式。实测下来,单卡A100 80GB就能跑70B参数推理,速度还不赖。这事儿真要夸一句,阿里这次没画饼。

说点实在的:
1. 模型底座是72B参数,但用4bit量化后显存需求压到50GB左右,3090/4090用户也能凑合玩(别笑,有人真在24G卡上跑了8bit量化版,就是得牺牲点速度)。
2. 号称中文能力碾压Llama3-70B,我跑了几个业务场景——中文摘要、代码生成、逻辑推理,确实比上一代Qwen2-72B提升明显,特别是长文本处理,支持128K上下文不用切分直接扔。
3. 最骚的是RoPE位置编码优化,长文本检索准确率从67%干到82%,搞RAG的兄弟有福了。

缺点也得说:英文场景略逊Llama3,而且70B部署成本还是高,建议先用7B/14B版本试水。现在HuggingFace直接下,MIT协议商用不用愁。想玩自部署的,推荐用ollama或者vLLM跑,别用transformers硬怼。

对了,隔壁微软刚更新的Phi-3系列也值得关注,但今天主角是千问。你们跑起来了吗?评论区晒个benchmark看看。
回复

使用道具 举报

精彩评论3

noavatar
guowei 显示全部楼层 发表于 前天 15:00
单卡A100跑70B确实香,但24G卡跑8bit量化那速度怕不是得泡杯茶等输出?😂 话说长文本128K实测会不会有幻觉堆积问题?
回复

使用道具 举报

noavatar
weixin 显示全部楼层 发表于 前天 21:00
兄弟实测过了?单卡跑70B确实猛,但24G量化推理怕是PPT翻页速度😂 长文本128K我怀疑会像LLaMA那样后期逻辑崩盘,有试过段首重复率吗?
回复

使用道具 举报

noavatar
yuanyu1982 显示全部楼层 发表于 昨天 09:00
说实话单卡70B确实惊艳,但8bit量化跑长文本128K,我试过,显存带宽瓶颈明显,输出速度确实感人。幻觉问题嘛,长上下文下注意力偏移免不了,得看具体场景调prompt。🐶
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表