Evaluator	Measures	Scale
relevance	Response relevance to query	0–1
accuracy

LLM 评估器 ⚖️

基于Langfuse的LLM即评判者评估系统。使用GPT-5-nano对AI输出进行评分。

适用场景

- 评估搜索结果或AI回复的质量
对追踪记录进行相关性、准确性、幻觉检测评分
批量评分近期未评分的追踪记录
对智能体输出进行质量保证

使用方法

bash

使用示例用例进行测试

python3 {baseDir}/scripts/evaluator.py test

对特定Langfuse追踪记录进行评分

python3 {baseDir}/scripts/evaluator.py score

仅使用特定评估器进行评分

python3 {baseDir}/scripts/evaluator.py score --evaluators relevance

对近期未评分的追踪记录进行回填评分

python3 {baseDir}/scripts/evaluator.py backfill --limit 20

评估器

评估器	衡量指标	评分范围
相关性	回复与查询的相关性	0–1
准确性

事实正确性 | 0–1 | | 幻觉 | 虚构信息检测 | 0–1 | | 有用性 | 整体实用性 | 0–1 |

致谢

由 M. Abidi 构建 | agxntsix.ai
YouTube | GitHub
属于OpenClaw智能体的 AgxntSix技能套件 的一部分。

📅 需要为您的业务搭建OpenClaw？ 预约免费咨询

llm-evaluator大模型评估器

llm-evaluator

LLM Evaluator ⚖️

When to Use

Usage

Evaluators

Credits

LLM 评估器 ⚖️

适用场景

使用方法

使用示例用例进行测试

对特定Langfuse追踪记录进行评分

仅使用特定评估器进行评分

对近期未评分的追踪记录进行回填评分

评估器

致谢

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

llm-evaluator大模型评估器

llm-evaluator

LLM Evaluator ⚖️

When to Use

Usage

Evaluators

Credits

LLM 评估器 ⚖️

适用场景

使用方法

使用示例用例进行测试

对特定Langfuse追踪记录进行评分

仅使用特定评估器进行评分

对近期未评分的追踪记录进行回填评分

评估器

致谢

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement