返回顶部
e

evidence-cleaner证据清洗器

LLM通用证据清洗技能。将原始搜索结果、网页片段、OCR残片等原始材料清洗为可用证据,减少脏输入、伪实体、重复片段和错域材料对后续判断的污染。在搜索结果返回后、进入freshness判定或叙事生成前使用。触发条件:搜索结果质量差、证据量大但信噪比低、需要标准化证据格式。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 2.0.0
安全检测
已通过
118
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

evidence-cleaner

Evidence Cleaner — 证据清洗技能

核心职责

将原始材料(搜索结果、网页片段、OCR残片、RSS条目等)清洗为标准化可用证据。

做什么:

  • - 剥离 DOM/HTML/JS 噪声残留
  • 检测并过滤伪实体(不存在的人物、机构、事件)
  • 去重与压缩重复片段
  • 降权错域来源(二手转载、匿名来源等)
  • 将 snippet 标准化为统一格式

不做什么:

  • - ❌ 不生成主叙事或最终结论
  • ❌ 不做搜索或补充信息
  • ❌ 不做时间新鲜度判定(交给 freshness-judge)
  • ❌ 不改写证据的语义内容(只做格式标准化)

最小输入

字段类型必需说明
rawevidenceitems[]array原始证据条目,每条含 sourceurl、title、snippet、rawtext(可选)
primary_subject
string | ✅ | 本次任务的主体对象(用于判断相关性) | | canonicaltimeframe | object | ❌ | {start, end, granularity} 时间框架,供下游 freshness-judge 使用 | | cleaning_goal | string | ✅ | 清洗目标,如 为新闻分析准备证据 / 为技术调研去噪 |

输出格式

json
{
cleaned_evidence: [
{
id: ev_001,
source_url: https://...,
title: ...,
cleaned_snippet: 标准化后的文本,
source_reliability: A,
cleaningactions: [domstripped, truncated_restored],
original_index: 0
}
],
removed_noise: [
{
id: noise_001,
original_snippet: 被移除的内容摘要,
removalreason: pureadvertisement,
noise_category: ad
}
],
downranked_items: [
{
id: ev_002,
original_rank: 1,
new_rank: 15,
downrankreason: secondaryrepost,
warning: 内容可能被篡改,建议交叉验证
}
],
warnings: [
3条证据包含疑似AI幻觉引用,
2条证据来源为匿名账号,建议谨慎使用
],
cleaning_stats: {
total_input: 25,
kept: 18,
removed: 4,
downranked: 3,
snr_ratio: 0.72
}
}

清洗 5 步流程

Step 1: DOM 噪声剥离

从网页抓取结果中移除非内容噪声。
  • - 识别并剥离:HTML 标签残留、CSS 样式文本、JS 代码片段、Cookie 提示条文本
  • 识别并剥离:导航栏、页脚、面包屑、侧边栏、相关推荐、广告文案
  • 识别并剥离:阅读量/点赞数/评论数等元数据噪声
  • 检测方法:正则匹配 HTML 标签名/CSS 属性;特征词检测(推荐阅读为您推荐猜你喜欢)
  • 参考references/noise-patterns.md

Step 2: 伪实体检测

检测证据中引用的人物、机构、事件是否真实存在。
  • - 检查人名/机构名是否为已知实体(对比上下文一致性)
  • 检查事件引用是否有时间/地点等可验证锚点
  • 标记 AI 幻觉产生的虚假引用(如引用不存在的论文/报告)
  • 标记相似名称混淆(如 中国银行 vs 中国人民银行)
  • 检测方法:上下文交叉验证;已知实体库比对;逻辑一致性检查
  • 参考references/noise-patterns.md 伪实体模式章节

Step 2.5: 同源矛盾检测

当多条证据来自同一机构/作者/数据源,且结论相互矛盾时,标记为同源矛盾。

检测规则

  • - 同一机构(如MIT)在不同时间发布的两篇研究结论方向相反
  • 同一数据源(如Gartner报告)在不同版本中数据点不一致
  • 同一作者/团队在不同媒体上发表的观点矛盾

处理方式

  • - 不丢弃任何一方(双方证据均保留)
  • 在两条证据上均添加 samesourcecontradiction 标记
  • 在 warnings[] 中记录矛盾描述和来源
  • 在 cleaningstats 中新增 samesource_contradictions 计数

输出示例
json
{
cleaned_evidence: [
{
id: ev_003,
flags: [samesourcecontradiction],
contradictionnote: 与ev007同源(MIT),结论方向相反
}
],
warnings: [
同源矛盾: MIT的两项研究(ev003 vs ev007)结论方向相反,建议交叉验证
],
cleaning_stats: {
samesourcecontradictions: 1
}
}

Step 3: 去重压缩

识别并合并重复或高度相似的证据条目。
  • - 精确去重:标题和 snippet 完全相同的条目
  • 近似去重:snippet 文本相似度 > 85% 的条目(保留信息量最大的版本)
  • 压缩合并:同一事件的多条报道,合并为一条并标注来源数量
  • 转载链识别:A→B→C 转载链,只保留最早一手来源
  • 输出:去重后保留最佳版本,其他记入 removednoise 并标注 removalreason: duplicate

Step 4: 错域降权

对来源不权威或与主题不完全匹配的证据进行降权。
  • - 二手转载(非原始来源):降权 1 级
  • 匿名来源 / 自媒体无认证:降权 2 级
  • 缺乏时间标注:降权 1 级
  • 与 primarysubject 相关度 < 60%:降权 2 级
  • 来源域名信誉度低(农场号/聚合号):降权 3 级或移除
  • 参考references/clean-vs-drop-rules.md

Step 5: Snippet 标准化

将保留的证据条目格式化为统一结构。
  • - 去除首尾空白和多余换行
  • 修正编码问题(& → &、' → 等 HTML 实体)
  • 修正截断文本(检测 ... 尾部并标注 [TRUNCATED])
  • 统一引号格式、全半角标点
  • 保留原始来源 URL 和标题不变
  • 为每条证据计算 source_reliability 评级(S/A/B/C)

决策快速参考

证据状况处理方式
微格式错误、截断、编码问题Clean — 保留但修正
二手转载、匿名来源、缺时间
Downrank — 保留但降权 | | 纯广告、完全无关、纯噪声 | Drop — 彻底移除 | | 伪实体引用、AI幻觉 | Drop + Warning — 移除并记录警告 | | 高度重复 | Merge — 合并保留最佳版本 |

完整决策树见 references/clean-vs-drop-rules.md

参考文档

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 evidence-cleaner-1776010683 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 evidence-cleaner-1776010683 技能

通过命令行安装

skillhub install evidence-cleaner-1776010683

下载

⬇ 下载 evidence-cleaner v2.0.0(免费)

文件大小: 16.78 KB | 发布时间: 2026-4-13 10:12

v2.0.0 最新 2026-4-13 10:12
V2.0: 新增Step 2.5同源矛盾检测(same_source_contradiction)

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部