OpenClaw 模型测评框架

创建：2026-03-23
目标：深度测评各模型在 OpenClaw 上的实际表现

测试环境

- 平台：Matrix Agent（OpenClaw 2026.3.3）
当前模型：minimax/auto（上下文200k，MaxTokens 8192）
代理：127.0.0.1:8766（MiniMax内部代理）
Thinking：关闭状态

待测模型池

模型	Provider	状态	优先级
MiniMax Auto	minimax	✅已测	—
GLM-5

智谱/百炼 | 🔜待测 | P1 | | Qwen3-235B-A22B | 百炼（MoE，235B参数） | 🔜待测 | P1 | | Claude Opus 4 (thinking-medium) | anthropic-via-proxy | 🔜待测 | P1 | | DeepSeek R1 | 待确认 | 🔜待测 | P2 | | GPT-4o | OpenAI | 待确认 | P2 |

API Key 需求

- GLM-5：需智谱API Key（GLM-4V/GLM-4已集成百炼，可能复用百炼Key）
Qwen3-235B-A22B：需阿里云百炼Key（洛书有Coding Plan）
测试方法：通过 OpenClaw models.json 配置新 provider

测评维度

维度	权重	测试内容
中文理解	25%	解释复杂概念，用小学生能懂的话
代码能力

测试题库（标准题）

测试1：中文理解与创意

请用一段不超过100字的话，解释量子纠缠，要求：小学生能看懂，且有一定文采。

评分标准：

- ✅ 能用比喻/类比解释（不堆术语）
✅ 有文采（不是干巴巴的定义）
✅ 字数<100

测试2：代码能力

写一个Python函数，判断一个字符串是否是回文，要求代码简洁、注释清晰、可直接运行。

评分标准：

- ✅ 逻辑正确
✅ 代码简洁（<15行）
✅ 有注释
✅ 可直接运行

测试3：工具调用能力

解释为什么工具调用能力对AI Agent至关重要？要求结合实际场景，不超过150字。

评分标准：

- ✅ 有具体场景举例
✅ 说清楚为什么（不是是什么）
✅ 字数<150

测试4：复杂推理

张三比李四大3岁。李四比王五小2岁。王五20岁。问：三人年龄之和是多少？

评分标准：

- ✅ 推理过程清晰
✅ 最终答案正确（20+22+25=67）
✅ 写出推理步骤

报告格式

模型测评报告：{模型名}

日期：YYYY-MM-DD

总分：X/10

各维度得分

维度	得分	评语
中文理解	X/10	...
代码能力

X/10 | ... | | 工具调用 | X/10 | ... | | 复杂推理 | X/10 | ... | | 响应速度 | X/10 | ... |

亮点

-
不足
结论

model-benchmark模型基准测评

model-benchmark

OpenClaw 模型测评框架

测试环境