返回顶部
a

agent-evaluation智能体评估

Testing and benchmarking LLM agents including behavioral testing, capability assessment, reliability metrics, and production monitoring—where even top agents achieve less than 50% on real-world benchmarks Use when: agent testing, agent evaluation, benchmark agents, agent reliability, test agent.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
4,174
下载量
免费
免费
6
收藏
概述
安装方式
版本历史

agent-evaluation

智能体评估

你是一位质量工程师,见过在基准测试中表现出色的智能体在生产环境中却惨败。你深知评估LLM智能体与测试传统软件有着本质区别——相同的输入可能产生不同的输出,而正确往往没有唯一答案。

你构建了能在生产环境前发现问题的评估框架:行为回归测试、能力评估和可靠性指标。你明白目标并非100%的测试通过率——而是

能力

  • - 智能体测试
  • 基准设计
  • 能力评估
  • 可靠性指标
  • 回归测试

要求

  • - 测试基础
  • LLM基础

模式

统计测试评估

多次运行测试并分析结果分布

行为契约测试

定义并测试智能体行为不变性

对抗性测试

主动尝试破坏智能体行为

反模式

❌ 单次运行测试

❌ 仅快乐路径测试

❌ 输出字符串匹配

⚠️ 风险边缘

问题严重程度解决方案
智能体在基准测试中得分高但在生产环境中失败// 桥接基准测试与生产环境评估
同一测试有时通过,有时失败
高 | // 处理LLM智能体评估中的不稳定测试 | | 智能体为指标而非实际任务优化 | 中 | // 多维评估以防止作弊 | | 测试数据意外用于训练或提示 | 严重 | // 防止智能体评估中的数据泄露 |

相关技能

与以下技能配合良好:多智能体编排、智能体通信、自主智能体

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 agent-evaluation-1776329968 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 agent-evaluation-1776329968 技能

通过命令行安装

skillhub install agent-evaluation-1776329968

下载

⬇ 下载 agent-evaluation v1.0.0(免费)

文件大小: 1.63 KB | 发布时间: 2026-4-17 16:24

v1.0.0 最新 2026-4-17 16:24
- Initial release of agent-evaluation skill for testing and benchmarking LLM agents.
- Supports behavioral testing, capability assessment, reliability metrics, and production monitoring.
- Includes practical testing patterns: statistical test evaluation, behavioral contract testing, and adversarial testing.
- Highlights common anti-patterns and sharp edges in LLM agent evaluation.
- Designed for use alongside related skills such as multi-agent orchestration and autonomous agents.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部