兄弟们,今天社区最热的瓜来了——阿里开源了Qwen2.5-72B-Instruct,直接放出了BF16和GGUF格式。实测下来,单卡A100 80GB就能跑70B参数推理,速度还不赖。这事儿真要夸一句,阿里这次没画饼。
说点实在的:
1. 模型底座是72B参数,但用4bit量化后显存需求压到50GB左右,3090/4090用户也能凑合玩(别笑,有人真在24G卡上跑了8bit量化版,就是得牺牲点速度)。
2. 号称中文能力碾压Llama3-70B,我跑了几个业务场景——中文摘要、代码生成、逻辑推理,确实比上一代Qwen2-72B提升明显,特别是长文本处理,支持128K上下文不用切分直接扔。
3. 最骚的是RoPE位置编码优化,长文本检索准确率从67%干到82%,搞RAG的兄弟有福了。
缺点也得说:英文场景略逊Llama3,而且70B部署成本还是高,建议先用7B/14B版本试水。现在HuggingFace直接下,MIT协议商用不用愁。想玩自部署的,推荐用ollama或者vLLM跑,别用transformers硬怼。
对了,隔壁微软刚更新的Phi-3系列也值得关注,但今天主角是千问。你们跑起来了吗?评论区晒个benchmark看看。 |