PA Eval Skill
Minimum Model
Any model for filling in templates. Use a medium model for trend analysis and recommendations.
When to Run
- - Weekly self-eval: Every 7 days. Run automatically.
- On owner correction: Log the correction immediately, then re-score the affected dimension.
- Monthly report: At the end of each month, aggregate all weekly evals.
- On demand: If owner asks "how am I doing?" → generate current eval on the spot.
Scoring Dimensions
Score each 1–5:
| Dimension | What to Measure |
|---|
| Execution | Tasks completed without reminders |
| Accuracy |
Results are correct and complete |
|
Speed | Response time is fast |
|
Proactivity | Acts without being asked |
|
Communication | Concise and context-appropriate |
|
Memory | Remembers context across sessions |
|
Tool Use | Tools used correctly and efficiently |
|
Judgment | Knows when to act vs. when to ask |
Score meanings:
- - 5 = Consistently exceeds expectations
- 4 = Meets expectations with minor gaps
- 3 = Acceptable but basic
- 2 = Frequent gaps or errors
- 1 = Fails basic expectations
Total: Max 40 points.
Grade: A (36–40), B (28–35), C (20–27), D (<20)
Weekly Self-Evaluation
Save to .learnings/eval/YYYY-MM-DD.md.
CODEBLOCK0
Create the File
CODEBLOCK1
Owner Feedback Signals
Log these automatically when detected:
| Signal | Action |
|---|
| 👍 reaction | Log +1 positive |
| 👎 reaction |
Log -1 negative, record the correction |
| "תודה" / "great" / "perfect" | Log +1 positive |
| "wrong" / "fix this" / "לא טוב" | Log -1, record the correction |
| Owner re-asks the same question | Log -1 memory gap |
| Owner does the task themselves | Log -1 initiative gap |
| Owner surprised by proactive action | Log +2 proactivity |
Rule: If a signal appears → log it immediately. Don't batch feedback signals.
Monthly Report Format
CODEBLOCK2
Benchmark Tests (Run Monthly)
Task Completion Rate
- - Count tasks assigned in last 30 days.
- Count completed without follow-up.
- Formula: INLINECODE1
- Target: >90%
Accuracy Rate
- - Count tasks that required correction.
- Formula: INLINECODE2
- Target: >95%
Memory Retention
- - Ask about something discussed 7+ days ago.
- Pass if recalled correctly, Fail if missed.
- Target: >80%
Cost Tips
- - Cheap: Filling in the weekly template — any small model works.
- Expensive: Trend analysis and pattern detection across multiple evals — use a medium model.
- Batch: Review all weekly evals at once during the monthly report, not one by one.
- Avoid: Don't re-score historical weeks — score in real time and save to file.
PA 评估技能
最低模型要求
任何用于填充模板的模型均可。趋势分析与建议推荐使用中型模型。
执行时机
- - 每周自评: 每7天一次。自动执行。
- 所有者纠正时: 立即记录纠正内容,随后对受影响维度重新评分。
- 月度报告: 每月末汇总所有周评估。
- 按需执行: 若所有者询问我表现如何?→ 即时生成当前评估。
评分维度
每项评分1-5分:
结果正确且完整 |
|
响应速度 | 响应时间迅速 |
|
主动性 | 无需指令主动行动 |
|
沟通能力 | 简洁且符合情境 |
|
记忆力 | 跨会话记住上下文 |
|
工具使用 | 正确高效使用工具 |
|
判断力 | 知晓何时行动、何时请示 |
评分含义:
- - 5 = 持续超出预期
- 4 = 符合预期,略有不足
- 3 = 可接受但基础
- 2 = 频繁出现差距或错误
- 1 = 未达到基本预期
总分: 最高40分。
等级:A(36-40分)、B(28-35分)、C(20-27分)、D(低于20分)
每周自评
保存至 .learnings/eval/YYYY-MM-DD.md。
markdown
PA 周评估 — YYYY-MM-DD
评分
/5 | |
| 响应速度 | /5 | |
| 主动性 | /5 | |
| 沟通能力 | /5 | |
| 记忆力 | /5 | |
| 工具使用 | /5 | |
| 判断力 | /5 | |
|
总分 | /40 | |
本周所有者反馈
已完成任务
创建文件
bash
#!/bin/bash
set -e
设置输出目录
EVAL_DIR=$HOME/.openclaw/workspace/.learnings/eval
mkdir -p $EVAL_DIR
DATE=$(date +%Y-%m-%d)
EVALFILE=$EVALDIR/$DATE.md
写入包含今日日期的模板
cat > $EVAL_FILE << EOF
PA 周评估 — DATE_PLACEHOLDER
[填写上方模板]
EOF
将占位符替换为实际日期(适用于Linux和macOS)
sed -i s/DATE
PLACEHOLDER/$DATE/ $EVALFILE 2>/dev/null \
|| sed -i s/DATE
PLACEHOLDER/$DATE/ $EVALFILE
echo 已创建评估文件:$EVAL_FILE
所有者反馈信号
检测到以下信号时自动记录:
记录-1负面反馈,记录纠正内容 |
| תודה / great / perfect | 记录+1正面反馈 |
| wrong / fix this / לא טוב | 记录-1,记录纠正内容 |
| 所有者重复提问相同问题 | 记录-1记忆力不足 |
| 所有者自行完成任务 | 记录-1主动性不足 |
| 所有者对主动行为表示惊讶 | 记录+2主动性加分 |
规则: 一旦出现信号→立即记录。不批量处理反馈信号。
月度报告格式
markdown
PA 绩效报告 — [月份 年份]
PA 名称: [名称]
所有者: [所有者姓名]
周期: [开始日期] – [结束日期]
综合评分:X/40(等级 A/B/C/D)
维度分解
[在此处复制评分表]
主要成就
- -
主要问题
与上期趋势对比
- 分数变化:+X / -X 分
- 最佳提升: [维度]
- 最大退步: [维度]
建议措施
- 1.
- 3.
基准测试(每月执行)
任务完成率
- - 统计过去30天内分配的任务数量。
- 统计无需跟进即完成的任务数量。
- 公式:已完成 / 已分配 × 100%
- 目标:>90%
准确率
- - 统计需要纠正的任务数量。
- 公式:(任务数 - 纠正数) / 任务数 × 100%
- 目标:>95%
记忆保持率
- - 询问7天前讨论过的内容。
- 正确回忆为通过,遗漏为失败。
- 目标:>80%
成本提示
- - 低成本: 填写周模板——任何小型模型均可。
- 高成本: 跨多次评估的趋势分析与模式识别——使用中型模型。
- 批量处理: 月度报告时一次性审查所有周评估,而非逐一进行。
- 避免: 不要对历史周重新评分——实时评分并保存至文件。