Dimension	What to Measure
Execution	Tasks completed without reminders
Accuracy

Signal	Action
👍 reaction / "thanks" / "great"	Log +1 positive
👎 reaction / "wrong" / "not good"

加载本地上下文

bash CONTEXT_FILE=/opt/ocana/openclaw/workspace/skills/eval/.context [ -f $CONTEXTFILE ] && source $CONTEXTFILE

然后使用：$OWNERPHONE, $WORKSPACE, $TASKSFILE, $MONDAYTOKENFILE, $GOG_CREDS 等变量

评估技能

对智能体管理的所有内容进行结构化评估。

使用时机

触发短语：

- 运行评估
哪些有效，哪些无效
给自己打分
检查所有内容

评估前行为检查（始终执行）

1. 当所有者触发评估时，回复 👍 表情
报告完成时，回复 ✅ 表情
PA 目录来源：/opt/ocana/openclaw/workspace/PA_LIST.md
日历检查：使用直接 API（而非 gog CLI）

评估报告格式

📋 完整评估 — [日期]

━━━ 自我表现 ━━━
执行力： [1-5] [评论]
准确性： [1-5] [评论]
记忆力： [1-5] [评论]
主动性： [1-5] [评论]
沟通能力： [1-5] [评论]
总分：[X]/25

━━━ 活跃任务 ━━━
✅ 今日完成： [数量]
🟡 进行中： [数量]
❌ 停滞： [数量] — [列出停滞任务]

━━━ PA 网络 ━━━
✅ 正常： [列表]
⚠️ 问题： [列表及问题描述]
❌ 离线： [列表]

━━━ 技能 ━━━
已安装： [数量]
今日使用： [列表]
未使用（7天以上）： [列表]

━━━ 集成 ━━━
日历（所有者）： [已连接 ✅ / 故障 ❌ / 未知 ?]
monday.com： [已连接 ✅ / 故障 ❌]
邮件（gog）： [已连接 ✅ / 故障 ❌]
GitHub 备份： [上次推送：X 前]
WhatsApp： [已连接 ✅ / 未连接 ❌]

━━━ 记忆健康 ━━━
每日笔记： [今日文件存在？✅/❌]
长期记忆： [MEMORY.md 大小 — 正常 / 臃肿]
学习记录： [本周数量]
上次备份： [X 前]

━━━ 建议 ━━━

1. [最需要修复的问题]
[次要优先级]
[可选改进]

运行评估

第一步 — 自我表现评分

根据今日活动，为每个维度评分 1–5：

执行力（1–5）：

- 5：所有任务无需提醒即完成
3：大部分任务完成，部分需要跟进
1：多项任务遗漏或遗忘

准确性（1–5）：

- 5：无需所有者纠正
3：1–2 次纠正
1：多次错误或输出错误

记忆力（1–5）：

- 5：每次都能正确回忆上下文
3：遗漏部分上下文，但能及时纠正
1：重复相同错误

主动性（1–5）：

- 5：多次在被告知前主动行动
3：响应请求，主动性最低
1：仅被动反应，无主动行动

沟通能力（1–5）：

- 5：清晰、简洁，无多余叙述
3：偶尔冗长或表达不清
1：分享推理过程、列出选项、叙述步骤

第二步 — 任务审计

bash
TASKS_FILE=$HOME/.openclaw/workspace/memory/tasks.md

echo 已完成任务：
grep -c \[x\] $TASKS_FILE 2>/dev/null || echo 0

echo 进行中任务：
grep -c \[ \] $TASKS_FILE 2>/dev/null || echo 0

停滞 = 进行中超过 2 天

echo 停滞任务（超过 2 天）： grep \[ \] $TASKS_FILE | grep -v $(date +%Y-%m-%d) | grep -v $(date -u -d 1 day ago +%Y-%m-%d 2>/dev/null) || echo 无

第三步 — PA 网络健康检查

bash
BILLING_FILE=$HOME/.openclaw/workspace/memory/billing-status.json

echo PA 网络状态：
python3 << PYEOF
import json
data = json.load(open(/opt/ocana/openclaw/workspace/memory/billing-status.json))
for pa in data[issues]:
status = ✅ if pa[status] == resolved else ⚠️
print(f {status} {pa[pa]} ({pa[owner]}): {pa[status]})
PYEOF

第四步 — 技能审计

bash
SKILLS_DIR=$HOME/.openclaw/workspace/skills

echo 已安装技能数量：
ls $SKILLS_DIR | grep -v README | wc -l

echo 技能列表：
ls $SKILLS_DIR | grep -v README

第五步 — 集成健康检查

bash

测试 Anthropic 计费

APISTATUS=$(curl -s -o /dev/null -w %{httpcode} \
-H x-api-key: ${ANTHROPICAPIKEY:-none} \
-H anthropic-version: 2023-06-01 \
https://api.anthropic.com/v1/models 2>/dev/null)

解释结果

if [ $API_STATUS = 200 ]; then echo 计费：✅ 正常 elif [ $API_STATUS = 402 ]; then echo 计费：❌ 额度不足 elif [ $API_STATUS = 401 ]; then echo 计费：❌ 密钥无效 else echo 计费：? HTTP $API_STATUS fi

测试 GitHub 备份

LAST_PUSH=$(git -C $HOME/.openclaw/workspace log -1 --format=%ar 2>/dev/null) echo 上次备份：$LAST_PUSH

测试 monday.com

if [ -f $HOME/.credentials/monday-api-token.txt ]; then MONDAYSTATUS=$(curl -s -o /dev/null -w %{httpcode} \ -X POST https://api.monday.com/v2 \ -H Authorization: $(cat $HOME/.credentials/monday-api-token.txt) \ -H Content-Type: application/json \ -d {query: { me { id } }} 2>/dev/null) [ $MONDAYSTATUS = 200 ] && echo monday.com：✅ || echo monday.com：❌ ($MONDAYSTATUS) else echo monday.com：? (未找到令牌) fi

第六步 — 记忆健康检查

bash
TODAY=$(date -u +%Y-%m-%d)
WORKSPACE=$HOME/.openclaw/workspace

检查每日笔记是否存在

[ -f $WORKSPACE/memory/$TODAY.md ] \ && echo 每日笔记：✅ \ || echo 每日笔记：❌ 尚未创建

检查 MEMORY.md 大小（超过 200 行则警告）

MEMORY_LINES=$(wc -l < $WORKSPACE/MEMORY.md 2>/dev/null || echo 0) if [ $MEMORY_LINES -gt 200 ]; then echo MEMORY.md：⚠️ 过大（$MEMORY_LINES 行）— 建议精简 else echo MEMORY.md：✅（$MEMORY_LINES 行） fi

统计本周学习记录

LEARNINGS=$(grep -c ^## $WORKSPACE/.learnings/LEARNINGS.md 2>/dev/null || echo 0) echo 已记录学习总数：$LEARNINGS

建议逻辑

运行所有步骤后，生成建议：

如果任何 PA 存在 billing_error 且状态 != resolved：
→ 修复 [PA 列表] 的计费问题 — 它们无法正常工作

如果任何任务状态为进行中且超过 2 天：
→ 跟进停滞任务：[任务名称]

如果 MEMORY.md 超过 200 行：
→ 精简 MEMORY.md — 文件变得臃肿

如果每日笔记不存在：
→ 创建今日记忆文件

如果上次备份超过 6 小时前：
→ 运行 git 备份

如果 API 计费状态为 402：
→ 我的 API 密钥额度不足 —

eval全面评估

eval

Load Local Context

Eval Skill

When to Use

Pre-Eval Behavioral Checks (Always)

Eval Report Format

Running the Eval

Step 1 — Self Performance Score

Step 2 — Task Audit

Step 3 — PA Network Health

Step 4 — Skills Audit

Step 5 — Integration Health

Step 6 — Memory Health

Recommendations Logic

Scheduling

Cost Tips

Minimum Model

PA Performance Scoring (Merged from pa-eval skill)

Scoring Dimensions (1–5 each, max 40 points)

Owner Feedback Signals

Weekly Eval File

Benchmark Tests (Run Monthly)

加载本地上下文

然后使用：$OWNERPHONE, $WORKSPACE, $TASKSFILE, $MONDAYTOKENFILE, $GOG_CREDS 等变量

评估技能

使用时机

评估前行为检查（始终执行）

评估报告格式

运行评估

第一步 — 自我表现评分

第二步 — 任务审计

停滞 = 进行中超过 2 天

第三步 — PA 网络健康检查

第四步 — 技能审计

第五步 — 集成健康检查

测试 Anthropic 计费

解释结果

测试 GitHub 备份

测试 monday.com

第六步 — 记忆健康检查

检查每日笔记是否存在

检查 MEMORY.md 大小（超过 200 行则警告）

统计本周学习记录

建议逻辑

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement