LLM Evaluator ⚖️
LLM-as-a-Judge evaluation system powered by Langfuse. Uses GPT-5-nano to score AI outputs.
When to Use
- - Evaluating quality of search results or AI responses
- Scoring traces for relevance, accuracy, hallucination detection
- Batch scoring recent unscored traces
- Quality assurance on agent outputs
Usage
CODEBLOCK0
Evaluators
| Evaluator | Measures | Scale |
|---|
| relevance | Response relevance to query | 0–1 |
| accuracy |
Factual correctness | 0–1 |
| hallucination | Made-up information detection | 0–1 |
| helpfulness | Overall usefulness | 0–1 |
Credits
Built by M. Abidi | agxntsix.ai
YouTube | GitHub
Part of the AgxntSix Skill Suite for OpenClaw agents.
📅 Need help setting up OpenClaw for your business? Book a free consultation
LLM 评估器 ⚖️
基于Langfuse的LLM即评判者评估系统。使用GPT-5-nano对AI输出进行评分。
适用场景
- - 评估搜索结果或AI回复的质量
- 对追踪记录进行相关性、准确性、幻觉检测评分
- 批量评分近期未评分的追踪记录
- 对智能体输出进行质量保证
使用方法
bash
使用示例用例进行测试
python3 {baseDir}/scripts/evaluator.py test
对特定Langfuse追踪记录进行评分
python3 {baseDir}/scripts/evaluator.py score
仅使用特定评估器进行评分
python3 {baseDir}/scripts/evaluator.py score --evaluators relevance
对近期未评分的追踪记录进行回填评分
python3 {baseDir}/scripts/evaluator.py backfill --limit 20
评估器
| 评估器 | 衡量指标 | 评分范围 |
|---|
| 相关性 | 回复与查询的相关性 | 0–1 |
| 准确性 |
事实正确性 | 0–1 |
| 幻觉 | 虚构信息检测 | 0–1 |
| 有用性 | 整体实用性 | 0–1 |
致谢
由 M. Abidi 构建 | agxntsix.ai
YouTube | GitHub
属于OpenClaw智能体的 AgxntSix技能套件 的一部分。
📅 需要为您的业务搭建OpenClaw? 预约免费咨询