返回顶部
p

prompt_design_tuning_best_practice提示词调优实践

Collaboratively design, evaluate, iterate on, and recommend a final launch candidate for a target prompt under the principle of “human-gated, agent-executed” workflow.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
105
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

prompt_design_tuning_best_practice

提示设计与调优最佳实践

本技能的目标并非随意“闲聊提示词”,而是将提示调优转化为一个可执行、可审查、成本可控的工程化工作流。

智能体负责大部分执行工作。
人类仅负责验证方向、审批高成本循环以及签署最终发布候选版本。



何时使用

当用户需要以下内容时,请使用本技能:

  • - 从头设计或优化目标提示词
  • 设计独立的评估/评判提示词
  • 在评估集上比较多个模型的性能
  • 处理现有的 API curl、SDK 集成或请求协议
  • 在有限预算下运行受控的提示词迭代
  • 将提示词调优转化为可复用的工作流,而非一次性的聊天练习

工作模式

1. 仅设计模式

在以下情况下使用此模式:

  • - 尚无可运行的环境
  • 尚无可用的评估资源
  • 当前无法执行真实的模型调用

在此模式下,智能体应产出:

  • - 任务定义
  • 目标提示词草稿
  • 评判提示词草稿
  • 评估计划
  • 脚本框架
  • 手动执行指南

2. 执行模式

在以下情况下使用此模式:

  • - 已有可运行的环境
  • 已提供模型调用方法
  • 已提供评估集、资源限制和候选模型

在此模式下,智能体应继续执行:

  • - 批量生成
  • 自动评估
  • 结果分析
  • 提示词迭代
  • 最终候选推荐

核心原则

以下规则默认不可协商:

  1. 1. 目标提示词评判提示词必须分离。
不得在同一轮比较中同时静默修改两者,然后将其收益混为一谈。
  1. 2. 在大规模评估之前,必须首先冻结任务定义(任务规范)
  1. 3. 每一轮提示词优化都必须有明确的优化假设
不允许出现“这句话感觉不对,我们改一下”的随机行为。
  1. 4. 必须维护实验日志,至少包括:
- 版本号 - 当前轮次的变更摘要 - 优化假设 - 评估结果 - 成本信息 - 结论
  1. 5. 任何高成本的评估循环都必须事先获得人类批准。
  1. 6. 最终发布候选版本必须由人类审查。
高机器评估分数并不自动意味着它已准备好发布。
  1. 7. 如果输入信息不完整,可以做出低风险假设,但必须明确说明。

建议收集的输入信息

智能体应尽可能收集或推断以下信息:

  • - 业务目标
  • 用户场景
  • 输入格式
  • 输出格式
  • 硬约束
  • 不可接受的错误
  • 成功标准
  • 线上验收阈值
  • 评估集
  • 候选模型
  • 调用方式(curl / SDK / API)
  • 资源限制(TPM、RPM、超时、预算、重试上限)

目标交付物

默认情况下,工作流应致力于产出以下内容:

  • - docs/taskspec.md
  • prompts/productionpromptv{n}.md
  • prompts/judgepromptv{n}.md
  • docs/evalplan.md
  • scripts/rungeneration.py
  • scripts/runjudge.py
  • reports/iteration{n}summary.md
  • reports/finalrecommendation.md
  • reports/experimentlog.md

人工关卡

默认情况下,仅在以下关键检查点需要人工确认:

关卡 A — 冻结任务定义

确认:
  • - 任务是否被正确理解
  • 成功标准是否合理
  • 约束条件是否完整

关卡 B — 确认目标提示词方向

确认:
  • - 目标提示词方向是否正确
  • 是否准备好进入评估

关卡 C — 确认评判提示词方向

确认:
  • - 评估标准是否公平
  • 评判者是否在评估真正重要的内容

关卡 D — 批准高成本迭代循环

确认:
  • - 模型列表
  • TPM 预算
  • 迭代轮数
  • 是否值得花费更多资源

关卡 E — 最终审查

确认:
  • - 当前最佳版本是否可以作为发布候选
  • 是否继续优化
  • 是否停止

除非用户明确要求更细粒度的控制,否则不要在中间过于频繁地打断。



执行流程

阶段 0 — 任务定义(任务规范)

在编写任何提示词之前,首先建立清晰的任务定义。

任务定义至少应包括:

  • - 问题描述
  • 输入格式
  • 输出格式
  • 业务目标
  • 用户目标
  • 约束条件
  • 明确禁止的输出
  • 正例和反例
  • 成功指标
  • 未解决的问题
  • 当前假设

如果用户的描述不完整,不要停滞不前。
先填入合理的假设,然后呈现给用户确认。

之后,进入关卡 A



阶段 1 — 生成目标提示词初稿

基于任务定义,生成目标提示词的初稿。

要求:

  • - 指令必须清晰
  • 约束必须明确
  • 输出结构必须稳定
  • 应尽量减少歧义
  • 可控性优先于空洞的“风格化”措辞
  • 仅在示例真正有帮助时才包含示例

同时输出:

  • - 关键设计原理
  • 预测的风险点
  • 可能的失败场景
  • 第一轮评估中需要特别关注的内容

之后,进入关卡 B



阶段 2 — 生成评判提示词初稿

设计独立的评判/评估提示词。

要求:

  • - 评估任务结果,而不是提示词本身读起来是否优美
  • 按独立维度评分,然后汇总
  • 包含硬性失败类别
  • 输出必须是结构化的 JSON
  • 尽量减少因模型风格偏好引起的偏差
  • 明确处理以下情况:
- 部分正确的输出 - 格式错误 - 对任务的理解错误 - 不安全或违反政策的输出 - 因任务信息不完整导致的合理不确定性

同时输出:

  • - 评分维度
  • 权重设计
  • 硬性失败条件
  • 评判输出 JSON 模式
  • 评判盲点

之后,进入关卡 C



阶段 3 — 设计评估计划

在运行大规模评估之前,明确定义评估计划。

计划至少应包括:

  • - 评估集的来源和规模
  • 样本切片策略(简单/中等/困难/边缘案例)
  • 线上验收阈值
  • 主要指标
  • 辅助诊断指标
  • 平局规则
  • 最大迭代轮数
  • 总预算限制
  • 提前停止条件

默认循环策略:

  • - 默认情况下,最多运行 2 轮高成本优化
  • 如果收益微薄且失败类型没有实质性改善,则停止
  • 如果评判者本身看起来不可靠,先修复评判者,而不是继续修改目标提示词

阶段 4 — 编写生成脚本

如果具备可执行条件,智能体应编写批量生成脚本。

脚本应尽可能支持:

  • - jsonl / csv / excel 输入
  • 多个模型
  • 从检查点恢复
  • 重试和退避
  • 日志记录
  • 严格的输入输出顺序保持
  • TPM / RPM 速率限制
  • 用于下游评估的结构化输出

TPM 处理原则

不要简单地将 TPM 直接转化为高并发。

首选方法:

  • - 估算每个请求的令牌消耗
  • 使用令牌桶或时间窗口速率限制
  • 在 RPM 和延迟未知时使用保守的并发
  • 稳定性优先于速度

阶段 5 — 批量生成模型输出

在所有指定的模型和提示词版本上运行完整的评估集。

至少记录:

  • - 模型名称
  • 提示词版本
  • 输入样本 ID
  • 原始输出
  • 令牌使用量(如果可用)
  • 延迟
  • 重试次数
  • 请求失败信息
  • 截断/解析失败

如果生成失败频繁发生:

  • - 首先将基础设施问题与提示词问题分开
  • 在排除配额、网络、速率限制或协议问题之前,不要断定提示词不好

阶段 6 — 运行自动评估

使用评判提示词批量评估生成的输出。

要求:

  • - 评判输出必须是结构化的 JSON
  • 原始评判输出必须可追溯
  • 计算总体分数和切片级指标
  • 自动识别主要失败集群
  • 区分格式错误和内容错误
  • 如果评判者存在噪声,明确说明,而不是假装结果可靠

阶段 7 — 分析与优化

只有在有明确的优化假设时,才允许进行新的提示词迭代。

每一轮必须包括:

  1. 1. 总结上一轮的结果
  2. 识别主要的失败集群
  3. 提出本轮优化假设
  4. 仅修改最必要的提示词部分
  5. 提供版本差异摘要
  6. 预测哪些方面应该改善,哪些方面可能退步

不要无缘无故地运行另一轮。

如果下一轮将消耗大量资源,请先进入关卡 D

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 prompt-design-tuning-1775982241 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 prompt-design-tuning-1775982241 技能

通过命令行安装

skillhub install prompt-design-tuning-1775982241

下载

⬇ 下载 prompt_design_tuning_best_practice v1.0.0(免费)

文件大小: 5.5 KB | 发布时间: 2026-4-13 11:38

v1.0.0 最新 2026-4-13 11:38
Initial release: Provides a structured, human-gated workflow for prompt design and tuning.

- Defines two main working modes: Design-Only and Execution, adapting to different project readiness levels.
- Enforces separation between target prompts and judge prompts, with strict versioning and optimization logging requirements.
- Outlines mandatory human approval gates at key decision points (task definition, prompt directions, high-cost evaluations, final launch).
- Specifies required documentation, scripts, and reports for transparent, reusable prompt engineering.
- Recommends inputs to collect for each project, ensuring clear task specs, evaluation plans, and cost control.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部