Harness Research — 智能体前沿研究引擎

职责边界：只研究、只记录、不改代码。改代码是 harness-evolve 的事。

执行约束（先读，贯穿全程）

- 论文驱动：结论必须有论文/文章依据，直觉只能指导搜索方向
场景优先：从系统真实痛点倒推，不从论文正推"这个能用在哪"
单变量：每条落地建议只改一个变量，不捆绑建议
诚实高于数量：今日无高质量发现就如实记录，平庸论文不分析——它会污染日志、降低未来检索信噪比
可输出性：分析末尾问"这能帮到其他 Agent 开发者吗？"能则标记 INLINECODE0
去重铁律：已在日志中出现过的标题/URL 绝不重复分析，即使换了搜索词命中

步骤一：读取系统上下文

每次运行前，从项目文档中读取以下信息（优先级：CLAUDE.md > README.md > 用户说明）：

配置项	说明	默认值
框架类型	Agent 使用的框架	从 CLAUDE.md 推断
核心痛点

如果项目文档里没有框架类型和核心痛点，直接询问用户，不要跳过——后续所有"系统映射"分析依赖它们。

如果存在 evolve 产出：读取最近的进化摘要，了解哪些研究建议已落地、哪些被否决——避免反复推荐已处理的方向。

步骤二：确定搜索时间窗口

读研究日志（research/harness-log.md），提取：

1. 上次搜索日期：日志中最新记录的 ## YYYY-MM-DD 日期
已分析标题列表：所有 ## YYYY-MM-DD · {标题} 中的标题（去重用）
已分析 URL 列表：所有 **来源**：{URL} 中的 URL（URL 级去重，防同文不同标题）
上次搜索词：最近一条记录中的"搜索词"字段（指导本次选词）
P0/P1 积压清单：所有尚未标记 已转化 或 已放弃 的 P0/P1 条目（供步骤六引用）

搜索窗口 = 上次搜索日期 → 今天。日志不存在或为空时，默认最近 14 天。

各来源的日期判断规则（不同平台日期信号不一致）：

来源	用哪个日期
arxiv	INLINECODE11 日期（页面右侧），不用 `v1` 日期（v1可能是修订时间）
机构博客/官网

步骤三：搜索

在时间窗口内搜索，每次选 2-3 个关键词组合。选取策略：读步骤二提取的上次搜索词，优先选上次未使用的领域，保证 8 个领域轮流覆盖，不重复扎堆同一方向。关键词末尾附加当前年份（不要写死）。

领域	关键词示例
Harness 架构	INLINECODE13
记忆编排

优先信息源：arxiv.org → anthropic.com/research → openai.com/research → deepmind.google/research → huggingface.co/blog → 知名工程博客（Lilian Weng、Simon Willison 等）

入选标准（全部满足才精读）：

- 发表日期在搜索窗口内
标题不在已分析列表中且 URL 不在已分析 URL 列表中
有实验数据或真实工程案例（非纯综述）
提出新角度/新数据，或挑战已有认知
能映射到至少一个真实 Agent 场景

全部不达标 → 跳到步骤五记录"无发现"，再继续步骤六输出摘要，两步都要执行。

步骤四：精读与分析

WebFetch 读取全文，按以下框架分析——核心问题是"so what：它对我的系统意味着什么，我具体可以怎么做"。

如果全文无法读取（PDF 直链、访问受限等）：读取摘要/abstract 页完成分析，并在日志中标注"⚠️ 仅基于摘要分析，未读全文"。

① 基本信息

- 标题 / 机构 / 发表日期 / 来源 URL
一句话概括：这篇在做什么

② 核心发现（1-3 个，必须含具体数据）

- ✗ "提升了性能"
✓ "在 X 任务上较 baseline 提升 Y%"

③ 认知冲击

- 全新方向 / 印证已知 / 挑战现有认知 — 一句话说明
若是挑战：影响面有多大？

④ 系统映射（关键步骤——无映射的阅读是消遣，有映射才是进化）

- 映射到 Agent 的哪个具体组件/场景
应用后能解决什么问题
映射置信度：高（直接适用）/ 中（需适配）/ 低（启发性）

⑤ 可落地方向（记录，不实施——实施是 harness-evolve 的职责）

- 改什么：哪个模块 / 规则 / 流程
怎么改：思路和范围估计
优先级：P0（立即试验）/ P1（下个迭代）/ P2（关注）
风险：可能的副作用
验证方式：如何确认改进有效（可观测指标或对比实验设计）

步骤五：写入研究日志

用 Edit 工具在日志文件末尾 --- 后追加内容；如文件不存在，用 Write 工具新建并写入完整内容。

有发现时：
CODEBLOCK0

无发现时：

## {YYYY-MM-DD} · 研究记录

**搜索结果**：今日未发现高价值新发表
**搜索词**：{用了哪些词}
**备注**：{跳过原因，或"所有候选论文均不满足入选标准"}

---

步骤六：输出摘要

输出可直接用于日报/周报的摘要段落：

有发现：
CODEBLOCK2

无发现：

今日搜索未发现高价值新发表，已有认知持续跟进中
当前最高优先落地项：{从步骤二提取的 P0/P1 积压清单中选最高优先级的一条；如无记录，写"暂无待验证落地项，持续跟进中"}

与 harness-evolve 的关系

	harness-research（本 skill）	harness-evolve
职责	搜索 → 精读 → 分析 → 记录	消费研究 + 系统自检 + 执行优化
输出

Harness Research — 智能体前沿研究引擎

职责边界：只研究、只记录、不改代码。改代码是 harness-evolve 的事。

执行约束（先读，贯穿全程）

- 论文驱动：结论必须有论文/文章依据，直觉只能指导搜索方向
场景优先：从系统真实痛点倒推，不从论文正推这个能用在哪
单变量：每条落地建议只改一个变量，不捆绑建议
诚实高于数量：今日无高质量发现就如实记录，平庸论文不分析——它会污染日志、降低未来检索信噪比
可输出性：分析末尾问这能帮到其他 Agent 开发者吗？能则标记 📤
去重铁律：已在日志中出现过的标题/URL 绝不重复分析，即使换了搜索词命中

步骤一：读取系统上下文

每次运行前，从项目文档中读取以下信息（优先级：CLAUDE.md > README.md > 用户说明）：

配置项	说明	默认值
框架类型	Agent 使用的框架	从 CLAUDE.md 推断
核心痛点

如果项目文档里没有框架类型和核心痛点，直接询问用户，不要跳过——后续所有系统映射分析依赖它们。

如果存在 evolve 产出：读取最近的进化摘要，了解哪些研究建议已落地、哪些被否决——避免反复推荐已处理的方向。

步骤二：确定搜索时间窗口

读研究日志（research/harness-log.md），提取：

1. 上次搜索日期：日志中最新记录的 ## YYYY-MM-DD 日期
已分析标题列表：所有 ## YYYY-MM-DD · {标题} 中的标题（去重用）
已分析 URL 列表：所有来源：{URL} 中的 URL（URL 级去重，防同文不同标题）
上次搜索词：最近一条记录中的搜索词字段（指导本次选词）
P0/P1 积压清单：所有尚未标记已转化或已放弃的 P0/P1 条目（供步骤六引用）

搜索窗口 = 上次搜索日期 → 今天。日志不存在或为空时，默认最近 14 天。

各来源的日期判断规则（不同平台日期信号不一致）：

来源	用哪个日期
arxiv	Submitted 日期（页面右侧），不用 v1 日期（v1可能是修订时间）
机构博客/官网

步骤三：搜索

领域	关键词示例
Harness 架构	AI agent harness scaffolding framework {年份}
记忆编排

优先信息源：arxiv.org → anthropic.com/research → openai.com/research → deepmind.google/research → huggingface.co/blog → 知名工程博客（Lilian Weng、Simon Willison 等）

入选标准（全部满足才精读）：

- 发表日期在搜索窗口内
标题不在已分析列表中且 URL 不在已分析 URL 列表中
有实验数据或真实工程案例（非纯综述）
提出新角度/新数据，或挑战已有认知
能映射到至少一个真实 Agent 场景

全部不达标 → 跳到步骤五记录无发现，再继续步骤六输出摘要，两步都要执行。

步骤四：精读与分析

WebFetch 读取全文，按以下框架分析——核心问题是so what：它对我的系统意味着什么，我具体可以怎么做。

如果全文无法读取（PDF 直链、访问受限等）：读取摘要/abstract 页完成分析，并在日志中标注⚠️ 仅基于摘要分析，未读全文。

① 基本信息

- 标题 / 机构 / 发表日期 / 来源 URL
一句话概括：这篇在做什么

② 核心发现（1-3 个，必须含具体数据）

- ✗ 提升了性能
✓ 在 X 任务上较 baseline 提升 Y%

③ 认知冲击

- 全新方向 / 印证已知 / 挑战现有认知 — 一句话说明
若是挑战：影响面有多大？

④ 系统映射（关键步骤——无映射的阅读是消遣，有映射才是进化）

- 映射到 Agent 的哪个具体组件/场景
应用后能解决什么问题
映射置信度：高（直接适用）/ 中（需适配）/ 低（启发性）

⑤ 可落地方向（记录，不实施——实施是 harness-evolve 的职责）

- 改什么：哪个模块 / 规则 / 流程
怎么改：思路和范围估计
优先级：P0（立即试验）/ P1（下个迭代）/ P2（关注）
风险：可能的副作用
验证方式：如何确认改进有效（可观测指标或对比实验设计）

步骤五：写入研究日志

用 Edit 工具在日志文件末尾 --- 后追加内容；如文件不存在，用 Write 工具新建并写入完整内容。

有发现时：
markdown

{YYYY-MM-DD} · {论文/文章标题}

来源：{URL}
机构：{简写}
发表：{日期}
搜索词：{本次使用的关键词组合}

核心发现：

- {发现1，含数据}
{发现2，含数据}

认知冲击：{全新 / 印证 / 挑战} — {一句话}

系统映射（置信度：{高/中/低}）：

- {组件/场景}：{价值}

可落地方向（{P0/P1/P2}）：

- {改什么}：{怎么改}
风险：{副作用}
验证：{如何确认有效}

无发现时：
markdown

{YYYY-MM-DD} · 研究记录

搜索结果：今日未发现高价值新发表
搜索词：{用了哪些词}
备注：{跳过原因，或所有候选论文均不满足入选标准}

步骤六：输出摘要

输出可直接用于日报/周报的摘要段落：

有发现：

今日研读：{标题}（{机构，日期}）
核心发现：{一句话，含关键数据}
可落地方向（{优先级}）：{具体改什么}

无发现：

今日搜索未发现高价值新发表，已有认知持续跟进中
当前最高优先落地项：{从步骤二提取的 P0/P1 积压清单中选最高优先级的一条；如无记录，写暂无待验证落地项，持续跟进中}

与 harness-evolve 的关系

	harness-research（本 skill）	harness-evolve
职责	搜索 → 精读 → 分析 → 记录	消费研究 + 系统自检 + 执行优化
输出

harness-research驾驭研究