OpenClaw 模型测评框架
创建:2026-03-23
目标:深度测评各模型在 OpenClaw 上的实际表现
测试环境
- - 平台:Matrix Agent(OpenClaw 2026.3.3)
- 当前模型:minimax/auto(上下文200k,MaxTokens 8192)
- 代理:127.0.0.1:8766(MiniMax内部代理)
- Thinking:关闭状态
待测模型池
| 模型 | Provider | 状态 | 优先级 |
|---|
| MiniMax Auto | minimax | ✅已测 | — |
| GLM-5 |
智谱/百炼 | 🔜待测 | P1 |
|
Qwen3-235B-A22B | 百炼(MoE,235B参数) | 🔜待测 | P1 |
| Claude Opus 4 (thinking-medium) | anthropic-via-proxy | 🔜待测 | P1 |
| DeepSeek R1 | 待确认 | 🔜待测 | P2 |
| GPT-4o | OpenAI | 待确认 | P2 |
API Key 需求
- - GLM-5:需智谱API Key(GLM-4V/GLM-4已集成百炼,可能复用百炼Key)
- Qwen3-235B-A22B:需阿里云百炼Key(洛书有Coding Plan)
- 测试方法:通过 OpenClaw models.json 配置新 provider
测评维度
| 维度 | 权重 | 测试内容 |
|---|
| 中文理解 | 25% | 解释复杂概念,用小学生能懂的话 |
| 代码能力 |
25% | Python实现,简洁可运行 |
| 工具调用 | 20% | 解释工具调用对Agent的重要性 |
| 复杂推理 | 20% | 多步骤逻辑推理题 |
| 响应速度 | 10% | 从发题到返回的时间 |
测试题库(标准题)
测试1:中文理解与创意
请用一段不超过100字的话,解释"量子纠缠",要求:小学生能看懂,且有一定文采。
评分标准:
- - ✅ 能用比喻/类比解释(不堆术语)
- ✅ 有文采(不是干巴巴的定义)
- ✅ 字数<100
测试2:代码能力
写一个Python函数,判断一个字符串是否是回文,要求代码简洁、注释清晰、可直接运行。
评分标准:
- - ✅ 逻辑正确
- ✅ 代码简洁(<15行)
- ✅ 有注释
- ✅ 可直接运行
测试3:工具调用能力
解释为什么"工具调用能力"对AI Agent至关重要?要求结合实际场景,不超过150字。
评分标准:
- - ✅ 有具体场景举例
- ✅ 说清楚"为什么"(不是"是什么")
- ✅ 字数<150
测试4:复杂推理
张三比李四大3岁。李四比王五小2岁。王五20岁。问:三人年龄之和是多少?
评分标准:
- - ✅ 推理过程清晰
- ✅ 最终答案正确(20+22+25=67)
- ✅ 写出推理步骤
报告格式
CODEBLOCK0
OpenClaw 模型测评框架
创建:2026-03-23
目标:深度测评各模型在 OpenClaw 上的实际表现
测试环境
- - 平台:Matrix Agent(OpenClaw 2026.3.3)
- 当前模型:minimax/auto(上下文200k,MaxTokens 8192)
- 代理:127.0.0.1:8766(MiniMax内部代理)
- Thinking:关闭状态
待测模型池
| 模型 | Provider | 状态 | 优先级 |
|---|
| MiniMax Auto | minimax | ✅已测 | — |
| GLM-5 |
智谱/百炼 | 🔜待测 | P1 |
|
Qwen3-235B-A22B | 百炼(MoE,235B参数) | 🔜待测 | P1 |
| Claude Opus 4 (thinking-medium) | anthropic-via-proxy | 🔜待测 | P1 |
| DeepSeek R1 | 待确认 | 🔜待测 | P2 |
| GPT-4o | OpenAI | 待确认 | P2 |
API Key 需求
- - GLM-5:需智谱API Key(GLM-4V/GLM-4已集成百炼,可能复用百炼Key)
- Qwen3-235B-A22B:需阿里云百炼Key(洛书有Coding Plan)
- 测试方法:通过 OpenClaw models.json 配置新 provider
测评维度
| 维度 | 权重 | 测试内容 |
|---|
| 中文理解 | 25% | 解释复杂概念,用小学生能懂的话 |
| 代码能力 |
25% | Python实现,简洁可运行 |
| 工具调用 | 20% | 解释工具调用对Agent的重要性 |
| 复杂推理 | 20% | 多步骤逻辑推理题 |
| 响应速度 | 10% | 从发题到返回的时间 |
测试题库(标准题)
测试1:中文理解与创意
请用一段不超过100字的话,解释量子纠缠,要求:小学生能看懂,且有一定文采。
评分标准:
- - ✅ 能用比喻/类比解释(不堆术语)
- ✅ 有文采(不是干巴巴的定义)
- ✅ 字数<100
测试2:代码能力
写一个Python函数,判断一个字符串是否是回文,要求代码简洁、注释清晰、可直接运行。
评分标准:
- - ✅ 逻辑正确
- ✅ 代码简洁(<15行)
- ✅ 有注释
- ✅ 可直接运行
测试3:工具调用能力
解释为什么工具调用能力对AI Agent至关重要?要求结合实际场景,不超过150字。
评分标准:
- - ✅ 有具体场景举例
- ✅ 说清楚为什么(不是是什么)
- ✅ 字数<150
测试4:复杂推理
张三比李四大3岁。李四比王五小2岁。王五20岁。问:三人年龄之和是多少?
评分标准:
- - ✅ 推理过程清晰
- ✅ 最终答案正确(20+22+25=67)
- ✅ 写出推理步骤
报告格式
模型测评报告:{模型名}
日期:YYYY-MM-DD
总分:X/10
各维度得分
X/10 | ... |
| 工具调用 | X/10 | ... |
| 复杂推理 | X/10 | ... |
| 响应速度 | X/10 | ... |
亮点