返回顶部
m

model-benchmark模型基准测评

深度测评各模型在 OpenClaw 上的实际表现,支持中文理解/代码/推理/工具调用多维度评估。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.1.0
安全检测
已通过
111
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

model-benchmark

OpenClaw 模型测评框架

创建:2026-03-23
目标:深度测评各模型在 OpenClaw 上的实际表现


测试环境

  • - 平台:Matrix Agent(OpenClaw 2026.3.3)
  • 当前模型:minimax/auto(上下文200k,MaxTokens 8192)
  • 代理:127.0.0.1:8766(MiniMax内部代理)
  • Thinking:关闭状态

待测模型池

模型Provider状态优先级
MiniMax Autominimax✅已测
GLM-5
智谱/百炼 | 🔜待测 | P1 | | Qwen3-235B-A22B | 百炼(MoE,235B参数) | 🔜待测 | P1 | | Claude Opus 4 (thinking-medium) | anthropic-via-proxy | 🔜待测 | P1 | | DeepSeek R1 | 待确认 | 🔜待测 | P2 | | GPT-4o | OpenAI | 待确认 | P2 |

API Key 需求

  • - GLM-5:需智谱API Key(GLM-4V/GLM-4已集成百炼,可能复用百炼Key)
  • Qwen3-235B-A22B:需阿里云百炼Key(洛书有Coding Plan)
  • 测试方法:通过 OpenClaw models.json 配置新 provider

测评维度

维度权重测试内容
中文理解25%解释复杂概念,用小学生能懂的话
代码能力
25% | Python实现,简洁可运行 | | 工具调用 | 20% | 解释工具调用对Agent的重要性 | | 复杂推理 | 20% | 多步骤逻辑推理题 | | 响应速度 | 10% | 从发题到返回的时间 |

测试题库(标准题)

测试1:中文理解与创意

请用一段不超过100字的话,解释量子纠缠,要求:小学生能看懂,且有一定文采。

评分标准:

  • - ✅ 能用比喻/类比解释(不堆术语)
  • ✅ 有文采(不是干巴巴的定义)
  • ✅ 字数<100

测试2:代码能力

写一个Python函数,判断一个字符串是否是回文,要求代码简洁、注释清晰、可直接运行。

评分标准:

  • - ✅ 逻辑正确
  • ✅ 代码简洁(<15行)
  • ✅ 有注释
  • ✅ 可直接运行

测试3:工具调用能力

解释为什么工具调用能力对AI Agent至关重要?要求结合实际场景,不超过150字。

评分标准:

  • - ✅ 有具体场景举例
  • ✅ 说清楚为什么(不是是什么)
  • ✅ 字数<150

测试4:复杂推理

张三比李四大3岁。李四比王五小2岁。王五20岁。问:三人年龄之和是多少?

评分标准:

  • - ✅ 推理过程清晰
  • ✅ 最终答案正确(20+22+25=67)
  • ✅ 写出推理步骤



报告格式

模型测评报告:{模型名}

日期:YYYY-MM-DD

总分:X/10

各维度得分

维度得分评语
中文理解X/10...
代码能力
X/10 | ... | | 工具调用 | X/10 | ... | | 复杂推理 | X/10 | ... | | 响应速度 | X/10 | ... |

亮点

  • -

    不足

  • 结论

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 model-benchmark-1776090661 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 model-benchmark-1776090661 技能

通过命令行安装

skillhub install model-benchmark-1776090661

下载

⬇ 下载 model-benchmark v0.1.0(免费)

文件大小: 2.22 KB | 发布时间: 2026-4-14 10:40

v0.1.0 最新 2026-4-14 10:40
- Initial release of model-benchmark skill for deep evaluation of models on OpenClaw.
- Supports multidimensional assessment: Chinese understanding, coding, reasoning, and tool-use evaluation.
- Includes a standardized test set and scoring rubrics for consistent benchmarking.
- Documents required APIs and configuration methods for adding new model providers.
- Provides a detailed report template for presenting model evaluation results.

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
返回顶部