返回顶部
l

llm-as-judgeLLM交叉验证

Cross-model verification for complex tasks. Spawn a judge subagent with a different model to review plans, code, architecture, or decisions before execution. Use when working on "architecture", "system design", "complex feature", "security review", "production deployment", financial/trading systems, or when stuck after 3+ attempts. NOT for simple edits, config changes, or routine tasks.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.2.0
安全检测
已通过
175
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

llm-as-judge

LLM作为评审者

核心原则: 同一模型 = 相同的盲区。不同模型 = 全新的视角。跨模型评审能发现约85%的问题,而自我反思仅能发现约60%。

触发条件

在以下情况使用此模式:

  • - 架构或系统设计决策
  • 影响超过5个文件或超过500行代码的多文件变更
  • 安全关键型代码(认证、支付、加密/DeFi)
  • 金融/交易系统(做市、量化策略)
  • 将驱动数周工作的规划文档
  • 对同一问题尝试3次以上仍无进展时

在以下情况跳过:

  • - 简单编辑、配置调整、原因明确的Bug修复
  • 文档更新
  • 少于100行代码的单文件变更
  • 自我评审已足够完成的任务

模式流程

执行者(模型A)→ 输出 → 评审者(模型B)→ 裁决 → 行动

裁决结果: 批准 | 修订(附带具体反馈)| 驳回(重新开始)

模型配对

使用与执行者不同的提供商,避免共享盲区:

  • - 执行者:Claude → 评审者:kimi 或 grok 或 gemini-pro
  • 执行者:Kimi/Gemini → 评审者:opus
  • 原则: 不同提供商,相近能力层级

评审提示模板

计划/架构评审

完整模板请参见 references/judge-prompts.md,涵盖:
  • - 计划完整性、可行性、风险、测试策略
  • 架构评审及评分(每维度0-10分)
  • 代码评审清单(正确性、设计、安全性、可维护性)

集成点

  • - 与对抗性评审结合: 这正是启动独立模型进行评审的正式化版本
  • 与规划协议结合: 在执行阶段之前,评审者对计划进行审查
  • 与编码工作流结合: 代码 → 跨模型评审 → 修复问题 → 测试 → 构建 → 推送

快速决策

简单任务? → 自我评审
复杂/高风险任务? → LLM作为评审者
多次重试后卡住? → LLM作为评审者(全新视角)
金融/安全相关? → LLM作为评审者(强制要求)

注意事项

  • - 同一提供商违背初衷 — Claude Opus评审Claude Sonnet共享相同的训练分布。请使用不同的提供商(Grok评审Claude、Gemini评审GPT等)。
  • 评审输出模糊毫无用处 — 如果评审者只说看起来不错而没有具体内容,说明提示词太弱。始终要求评审者生成评分维度+具体可操作项,即使批准通过也是如此。
  • 评审者范围蔓延 — 评审者有时会重写整个计划而非进行评审。将裁决限制为批准/修订/驳回并附带具体反馈,而非提供替代方案。
  • 批准率偏移 — 如果评审者批准超过80%的提交内容,说明模型配对过于相似或提示词过于宽松。目标批准率应控制在60-70%。
  • 不要评审琐碎任务 — 一个50行的CSS修复不需要跨模型评审。请严格遵循本技能中的触发条件。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 llm-as-judge-1776296368 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 llm-as-judge-1776296368 技能

通过命令行安装

skillhub install llm-as-judge-1776296368

下载

⬇ 下载 llm-as-judge v1.2.0(免费)

文件大小: 3.7 KB | 发布时间: 2026-4-16 18:36

v1.2.0 最新 2026-4-16 18:36
Remove project-specific references (QuantFlow, internal agent names). Fully generic and framework-agnostic. Activation criteria, model pairing, and gotchas unchanged.

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
返回顶部