返回顶部
m

multi-model-critique多模型批判

Run complex prompts through a multi-model deliberation pipeline with structured self-improvement. Use when the user sets a complex flag (e.g., complex=true/complex) or asks for high-stakes, ambiguous, or long-form reasoning where one model is not enough. Produces outputs by: (1) parallel model runs, (2) cross-critique, (3) critique-driven revision, and (4) final synthesized answer with uncertainties and evidence notes.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.1
安全检测
已通过
360
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

multi-model-critique

技能名称:multi-model-critique

详细描述:

多模型评审

概述

仅对复杂任务使用此技能。让多个模型通过相同的四步循环(规划 -> 执行 -> 评审 -> 改进),然后进行交叉评审与综合,生成比任何单模型草稿质量更高的最终答案。

触发规则

仅当请求明确将 complex 设置为 true(或等效措辞,如“此任务复杂/深入”)时,才启用此技能。

如果 complex 为 false,则跳过此技能,以正常的单模型行为进行响应。

输入

执行前收集或确认以下输入:
  • - complex:布尔标志(必须为 true)
  • question:用户请求
  • models:ACP agentId 值列表(通常为 3 个)
  • constraints:输出格式、语言、长度、截止时间、禁止假设
  • ops:可选的运行时控制参数(timeoutSec、maxRetries、maxRounds、budgetUsd)

文件映射(各文件功能)

  • - SKILL.md(本文件):编排策略、触发条件和执行顺序。
  • references/prompt-templates.md:用于草稿、评审、修订和最终综合的可复用提示模板(包含评分标准用法)。
  • references/orchestration-template.md:使用 sessionsspawn、sessionssend 和 sessionshistory 的实用 OpenClaw 编排流程。
  • references/output-schema.md:用于最终结果和每个模型评分的机器可解析 JSON 输出模式。
  • scripts/buildroundprompts.py:用于为重复运行生成每个模型提示文件的实用工具。
  • scripts/runorchestration.py:本地辅助工具,用于构建运行计划 JSON(模型映射、轮次提示、运行时设置)。

工作流程

步骤 1)并行草稿轮次

为每个模型生成一个 ACP 会话,使用相同的任务和约束条件。

每个模型的要求:

  • - 遵循精确的内部顺序:规划 -> 执行 -> 评审 -> 改进
  • 明确输出所有四个部分
  • 以 草稿答案 结束

使用 runtime:acp 和明确的 agentId 调用 sessions_spawn。

步骤 2)交叉评审轮次

将同行的 草稿答案 输出分享给每个模型,并要求进行结构化评审:
  • - 优势
  • 劣势
  • 缺失的假设/数据
  • 幻觉和置信度风险
  • 具体的改进建议

同时要求对同行草稿进行排序并说明理由。

步骤 3)修订轮次

将评审反馈发送回每个原始模型,并要求进行修订:
  • - 保留 规划 -> 执行 -> 评审 -> 改进
  • 包含 根据评审的变更
  • 以 修订答案 结束

步骤 4)最终综合轮次

将修订后的答案整合为一个面向用户的输出:
  • - 最佳最终答案
  • 综合结果为何优于单个草稿
  • 剩余的不确定性
  • 可选的后续行动

评分标准(评审和综合中必需)

对每个草稿按 1-5 分制评分:
  • - accuracy(准确性):事实正确性和内部一致性
  • coverage(覆盖度):对用户请求和约束条件的完整响应
  • evidence(证据):假设和支持的质量
  • actionability(可操作性):对具体决策/行动的实用性

默认加权分数:
0.40 accuracy + 0.25 coverage + 0.20 evidence + 0.15 actionability

使用此分数来证明排序和最终选定方向的合理性。

提示资源

  • - 使用 references/prompt-templates.md 获取标准提示模板。
  • 当需要为重复或批量运行生成基于文件的提示时,使用 scripts/buildroundprompts.py。
  • 使用 scripts/run_orchestration.py 生成确定性的运行计划工件,以实现可重复执行。
  • 使用 references/orchestration-template.md 获取具体的 OpenClaw 工具调用流程。

面向用户的输出格式要求

  1. 1. 最终答案
  2. 评审中的关键改进
  3. 不确定性
  4. 后续步骤(可选)

当需要机器消费时,返回符合 references/output-schema.md 的 JSON。

不要暴露私有的思维链。仅提供简洁的推理摘要。

故障处理

  • - 一个模型失败:继续使用其余模型,并注明多样性降低。
  • 两个或更多模型失败:询问是否重试或切换到单模型模式。
  • 存在强烈分歧:提出相互竞争的假设,并说明哪些证据可以解决分歧。

运行时默认值(推荐)

  • - timeoutSec:每个模型每轮 180 秒
  • maxRetries:每个失败的模型轮次重试 1 次
  • maxRounds:固定为 4 轮(草稿、评审、修订、综合)
  • budgetUsd:对成本敏感时的可选硬性停止

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 multi-model-critique-1776295297 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 multi-model-critique-1776295297 技能

通过命令行安装

skillhub install multi-model-critique-1776295297

下载

⬇ 下载 multi-model-critique v1.0.1(免费)

文件大小: 11.3 KB | 发布时间: 2026-4-16 18:09

v1.0.1 最新 2026-4-16 18:09
Security patch: validate and sanitize untrusted question/constraints inputs, block prompt-injection control phrases, validate model/agent mapping formats, and add runtime guardrails for orchestration plan generation.

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
返回顶部