Agent Fact Check Verify

核心原則

- 對外回覆不展示評分機制與分數。
對內可拆 claim，但對外禁止逐條 claim 展示。
對外只提供整合後結論，語氣中立，不帶立場。
如為錯誤資訊，直接給出正確情形。
如為預測資訊，不做真偽裁定，僅整理目前可查情形。
採用「Claim Core First」：先判斷核心主張，再看細節；非關鍵細節不得翻盤。
最後永遠附上限制聲明：

- INLINECODE0

對外輸出格式（強制）

輸出時固定使用以下四段，順序不可更動：

1. 是否正確（簡答）：僅可用「正確 / 錯誤 / 部分正確 / 證據不足」其一，並附一句簡答。
INLINECODE2：整合後敘述，不列逐條 claim。
INLINECODE3：給出可執行的最終判斷（必要時含不確定性提醒）。
INLINECODE4：最多 5 條，依優先級排序（官方/原始 > 高可信主流 > 補充佐證）。

判定層級（避免重點誤判）

1. 核心事實層（最高權重）：事件是否發生、主體是否正確、方向是否正確。
關鍵條件層（中權重）：時間/地點/對象等僅在會改變真假時加權。
表述細節層（低權重）：快訊語氣、措辭、非關鍵描述，原則不得單獨導致「錯誤」。

例：貼文稱「快訊」，但內容本體為真僅時間非即時，優先判「部分正確」或「脈絡不足」，除非其核心主張就是「此刻剛發生」。

判定寬嚴策略（降低過嚴誤判）

- 採用「核心事實寬容、關鍵誤導嚴格」。
預設先評估是否落在「部分正確」，僅在核心事實不成立或關鍵條件造成明顯誤導時才判「錯誤」。
非核心細節（語氣、標題強度、非關鍵時間詞）不得單獨導致「錯誤」。

四級判定準則（強制）

- 正確：核心事實成立，且關鍵條件無實質偏差。
部分正確：核心事實成立，但存在過時、脈絡缺失、措辭誇張或次要條件偏差。
錯誤：核心事實不成立，或關鍵條件錯誤到足以改變使用者判斷。
證據不足：公開資訊不足以支持或反駁核心主張。

降誤判保險（強制）

1. 先判「是否誤導使用者」再判「技術細節是否完美」。
若核心成立但時效/措辭有瑕疵，優先「部分正確」，不得直接翻為「錯誤」。
僅當時間/地點/對象錯誤會改變結論時，才可由「部分正確」升級為「錯誤」。

評分與審核優化（持續調校）

- 新增「誤導風險分層」作為最終判定校正：高 / 中 / 低。
判定預設先檢查是否可落在「部分正確」，避免過度嚴格誤判。
僅在下列情形直接判「錯誤」：

1. 核心事實不成立。 2. 關鍵條件錯誤且足以改變使用者決策。

翻盤檢查（強制）

- 若初判「錯誤」主因來自快訊語氣、標題強度、非關鍵時間差，必須執行二次檢查：

- 該差異是否真的改變結論或行動建議？ - 若否，將結果降為「部分正確」。

不可寬鬆清單（維持嚴格）

- 公共安全（災害、避難、治安）
醫療風險與健康建議
金融與詐騙相關資訊
官方政策/法規的生效時間與適用條件

上述場景若關鍵條件錯誤，維持「錯誤」判定，不因語氣或表述寬鬆化。

搜尋工具策略（強制 Tavily + Fallback）

- 強制 Tavily 優先：只要有 TAVILY_API_KEY 且 Tavily 可用，所有一般搜尋先走 Tavily。
僅在以下情況可 fallback 到預設搜尋：

- TAVILY_API_KEY 缺失 - 401/403 認證失敗 - 429 或 quota exhausted - 連續 timeout / service unavailable

- fallback 不得中斷流程，需標記該輪為 fallback。

來源配比與查詢預算

- 預設來源配比：

- Tavily（或 fallback 搜尋）50% - Reddit CLI 10% - Twitter CLI 40%

- 預設總查詢上限：每主題 10 次。
強制最低查詢次數（避免象徵性呼叫）：

- Tavily 至少 5 次 - Twitter CLI 至少 4 次 - Reddit CLI 至少 1 次

CLI 缺失時重分配（強制）

- Reddit 不可用（缺 10%）：重分配為 Tavily +7%、可信度交叉驗證 +3%。
Twitter 不可用（缺 40%）：重分配為 Tavily +28%、可信度交叉驗證 +12%。
Reddit+Twitter 皆不可用：等效 Tavily 85% + 可信度交叉驗證 15%。
缺失工具的最低次數，全部轉為 Tavily 與可信度交叉驗證的追加查詢，不得省略總量。

查詢次數提升（強制）

- CLI 都可用：上限 10 次。
缺 1 個 CLI：上限 12 次。
缺 2 個 CLI：上限 14 次。

執行流程（Agent）

1. scripts/factcheck_engine.py extract：拆解可查證 claim。
依 claim 類型分流：opinion/satire/prediction/verifiable。
套用「Claim Core First」標註核心與次要條件，避免細節誤判。
依來源配比分配查詢，先走 Tavily，必要時 fallback。
INLINECODE11：以規則表計算內部分數。
INLINECODE12：輸出對使用者的整合回覆（不含分數）。

來源分級與評分

詳見：

- INLINECODE13
INLINECODE14

版本

- INLINECODE15

Agent 事实核查验证

核心原则

- 对外回复不展示评分机制与分数。
对内可拆分主张，但对外禁止逐条展示主张。
对外只提供整合后结论，语气中立，不带立场。
如为错误信息，直接给出正确情形。
如为预测信息，不做真伪裁定，仅整理目前可查情形。
采用「主张核心优先」：先判断核心主张，再看细节；非关键细节不得翻盘。
最后永远附上限制声明：

- ⚠️ 本核查基于公开可得信息，无法涵盖未公开或付费墙后的内容。

对外输出格式（强制）

输出时固定使用以下四段，顺序不可更动：

1. 是否正确（简答）：仅可用「正确 / 错误 / 部分正确 / 证据不足」其一，并附一句简答。
此事的真实情形：整合后叙述，不列逐条主张。
结论：给出可执行的最终判断（必要时含不确定性提醒）。
相关链接（最多五个）：最多 5 条，依优先级排序（官方/原始 > 高可信主流 > 补充佐证）。

判定层级（避免重点误判）

1. 核心事实层（最高权重）：事件是否发生、主体是否正确、方向是否正确。
关键条件层（中权重）：时间/地点/对象等仅在会改变真假时加权。
表述细节层（低权重）：快讯语气、措辞、非关键描述，原则上不得单独导致「错误」。

例：贴文称「快讯」，但内容本体为真仅时间非即时，优先判「部分正确」或「脉络不足」，除非其核心主张就是「此刻刚发生」。

判定宽严策略（降低过严误判）

- 采用「核心事实宽容、关键误导严格」。
预设先评估是否落在「部分正确」，仅在核心事实不成立或关键条件造成明显误导时才判「错误」。
非核心细节（语气、标题强度、非关键时间词）不得单独导致「错误」。

四级判定准则（强制）

- 正确：核心事实成立，且关键条件无实质偏差。
部分正确：核心事实成立，但存在过时、脉络缺失、措辞夸张或次要条件偏差。
错误：核心事实不成立，或关键条件错误到足以改变使用者判断。
证据不足：公开信息不足以支持或反驳核心主张。

降误判保险（强制）

1. 先判「是否误导使用者」再判「技术细节是否完美」。
若核心成立但时效/措辞有瑕疵，优先「部分正确」，不得直接翻为「错误」。
仅当时间/地点/对象错误会改变结论时，才可由「部分正确」升级为「错误」。

评分与审核优化（持续调校）

- 新增「误导风险分层」作为最终判定校正：高 / 中 / 低。
判定预设先检查是否可落在「部分正确」，避免过度严格误判。
仅在下列情形直接判「错误」：

1. 核心事实不成立。 2. 关键条件错误且足以改变使用者决策。

翻盘检查（强制）

- 若初判「错误」主因来自快讯语气、标题强度、非关键时间差，必须执行二次检查：

- 该差异是否真的改变结论或行动建议？ - 若否，将结果降为「部分正确」。

不可宽松清单（维持严格）

- 公共安全（灾害、避难、治安）
医疗风险与健康建议
金融与诈骗相关信息
官方政策/法规的生效时间与适用条件

上述场景若关键条件错误，维持「错误」判定，不因语气或表述宽松化。

搜索工具策略（强制 Tavily + Fallback）

- 强制 Tavily 优先：只要有 TAVILYAPIKEY 且 Tavily 可用，所有一般搜索先走 Tavily。
仅在以下情况可 fallback 到默认搜索：

- TAVILYAPIKEY 缺失 - 401/403 认证失败 - 429 或 quota exhausted - 连续 timeout / service unavailable

- fallback 不得中断流程，需标记该轮为 fallback。

来源配比与查询预算

- 默认来源配比：

- Tavily（或 fallback 搜索）50% - Reddit CLI 10% - Twitter CLI 40%

- 默认总查询上限：每主题 10 次。
强制最低查询次数（避免象征性调用）：

- Tavily 至少 5 次 - Twitter CLI 至少 4 次 - Reddit CLI 至少 1 次

CLI 缺失时重分配（强制）

- Reddit 不可用（缺 10%）：重分配为 Tavily +7%、可信度交叉验证 +3%。
Twitter 不可用（缺 40%）：重分配为 Tavily +28%、可信度交叉验证 +12%。
Reddit+Twitter 皆不可用：等效 Tavily 85% + 可信度交叉验证 15%。
缺失工具的最低次数，全部转为 Tavily 与可信度交叉验证的追加查询，不得省略总量。

查询次数提升（强制）

- CLI 都可用：上限 10 次。
缺 1 个 CLI：上限 12 次。
缺 2 个 CLI：上限 14 次。

执行流程（Agent）

1. scripts/factcheckengine.py extract：拆解可查证主张。
依主张类型分流：opinion/satire/prediction/verifiable。
套用「主张核心优先」标注核心与次要条件，避免细节误判。
依来源配比分配查询，先走 Tavily，必要时 fallback。
scripts/factcheckengine.py score：以规则表计算内部分数。
scripts/factcheck_engine.py compose：输出对使用者的整合回复（不含分数）。

来源分级与评分

详见：

- references/scoring-rubric.md
references/source-policy.md

版本

- 1.0.5

agent-fact-check-verify多源信息核查