昨天智谱开源了GLM-4-9B-Chat,我第一时间部署做了对比测试,选型建议分享下。
**1. 推理能力:Qwen2-7B更强但GLM-4胜在长文本**
在GSM8K数学推理上,Qwen2-7B达到78.2%,GLM-4-9B为72.3%,前者领先5-6个百分点。但GLM-4-9B支持128K上下文(实测能处理约60K token的会议纪要),而Qwen2-7B只有32K,长文档场景选GLM-4更稳。
**2. 代码与函数调用:GLM-4-9B有工具微调优势**
GLM-4-9B内置了Function Call和代码执行能力,在BFCL工具调用评测中得分83.4%,高出Qwen2-7B约8%。如果你做Agent开发,GLM-4-9B开箱即用更省事。
**3. 部署成本:Qwen2-7B更轻量化**
Qwen2-7B int4量化后仅4.5GB,单卡RTX 3090可流畅运行;GLM-4-9B int4需要5.8GB,稍占资源。实测推理速度Qwen2-7B快约15%(1024 tokens输出,Qwen2平均23.7秒,GLM-4为27.1秒)。
**选型建议**:做通用对话或资源受限选Qwen2-7B;重长文档分析或Agent工具链开发选GLM-4-9B。两个模型均开放商用,推荐都跑一遍。 |