返回顶部
g

guardAI安全护栏

Deep AI safety guardrails workflow—policy definition, input/output filtering, monitoring, escalation, and false-positive handling. Use when reducing harmful outputs, misuse, or policy violations in LLM products.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
115
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

guard

技能名称: guard
详细描述:

AI护栏(深度工作流)

护栏将产品与法律政策转化为强制执行行为:拦截、重写、记录和人工审核——同时关注误报率延迟

何时提供此工作流

触发条件:

  • - 推出面向消费者的LLM功能
  • 越狱尝试、违反政策或PII泄露风险
  • 特定区域合规要求(未成年人、受监管建议)

初始提供:

使用六个阶段:(1) 政策范围、(2) 威胁模型、(3) 控制栈、(4) 实现模式、(5) 监控与审核、(6) 迭代与申诉。确认延迟预算和管辖区域。



阶段1:政策范围

目标: 定义禁止类别(仇恨言论、色情内容、暴力、自残、恶意软件指令等)以及敏感领域(医疗、法律)所需的免责声明。

退出条件: 由法务/产品部门拥有政策文档;为灰色地带建立升级路径。



阶段2:威胁模型

目标: 识别攻击者(提示注入、数据窃取、工具滥用)和资产(用户数据、系统提示、连接器)。



阶段3:控制栈

目标: 分层防御:输入筛查、模型安全API、输出分类器、工具沙箱、工具和URL白名单。



阶段4:实现模式

目标: 结构化拒绝消息;每次拦截的遥测数据;区分拦截、重写与警告;避免静默失败。



阶段5:监控与审核

目标: 抽样边界案例进行人工审核;按类别展示拦截率的仪表盘;滥用激增警报。



阶段6:迭代与申诉

目标: 在适当时提供用户申诉路径;版本化政策变更;按地区和用例衡量误报率。



最终审核清单

  • - [ ] 已定义政策类别和负责人
  • [ ] 威胁模型与产品对齐
  • [ ] 分层控制并明确职责
  • [ ] 边缘案例的遥测与审核
  • [ ] 适当时建立申诉与迭代流程

有效指导技巧

  • - 深度防御——单一分类器不足以应对。
  • 内容审核用于UGC,将工具调用用于代理安全。

处理偏差情况

  • - 企业内部机器人:强调数据泄露预防和连接器范围,而非仅关注公开的“安全”类别。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 guard-1775975221 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 guard-1775975221 技能

通过命令行安装

skillhub install guard-1775975221

下载

⬇ 下载 guard v1.0.0(免费)

文件大小: 1.84 KB | 发布时间: 2026-4-13 10:31

v1.0.0 最新 2026-4-13 10:31
Version 1.0.0 – Initial Release

- Introduces a comprehensive deep AI safety guardrails workflow for LLM-based products.
- Details a six-stage process: policy scope, threat modeling, controls stack, implementation patterns, monitoring & review, and iteration & appeals.
- Provides specific guidance on policy definition, input/output filtering, monitoring, escalation, and false-positive handling.
- Includes review checklist and tips for best practices in deploying safety guardrails for AI features.
- Addresses enterprise-specific considerations (e.g., data-leak prevention for internal bots).

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部