返回顶部
s

swarm-safety蜂群安全评估

SWARM: System-Wide Assessment of Risk in Multi-agent systems. 38 agent types, 29 governance levers, 55 scenarios. Study emergent risks, phase transitions, and governance cost paradoxes.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.7.1
安全检测
已通过
431
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

swarm-safety

SWARM 安全技能

研究智能如何形成集群——以及它在何处失效。

SWARM 是一个研究框架,用于研究多智能体AI系统中的涌现风险,采用软(概率)标签而非二元的好/坏分类。AGI级别的风险并不需要AGI级别的智能体——当许多亚AGI智能体相互作用时,即使没有单个智能体出现偏差,也会产生有害的动态行为。

v1.7.0 | 38种智能体类型 | 29个治理杠杆 | 55个场景 | 2922个测试 | 8个框架桥接

仓库地址:https://github.com/swarm-ai-safety/swarm

硬性规则

  • - SWARM模拟在本地运行。请先安装该包。
  • 不要提交包含真实API密钥、凭证或个人身份信息的场景。
  • 模拟结果是研究产物。不要将其作为真实系统的绝对真理呈现。
  • 发布结果时,请引用该框架并披露模拟参数。

安全性

  • - API默认仅绑定到本地主机(127.0.0.1),以防止网络暴露。
  • CORS默认限制为本地主机来源。
  • 开发API无身份验证——请勿暴露给不受信任的网络。
  • 内存存储——数据在重启后不会持久化。
  • 对于生产部署,请添加身份验证中间件并使用合适的数据库。

安装

bash

从PyPI安装


pip install swarm-safety

支持LLM智能体

pip install swarm-safety[llm]

完整开发(所有附加组件)

git clone https://github.com/swarm-ai-safety/swarm.git cd swarm pip install -e .[dev,runtime]

快速入门(Python)

python
from swarm.agents.honest import HonestAgent
from swarm.agents.opportunistic import OpportunisticAgent
from swarm.agents.deceptive import DeceptiveAgent
from swarm.agents.adversarial import AdversarialAgent
from swarm.core.orchestrator import Orchestrator, OrchestratorConfig

config = OrchestratorConfig(nepochs=10, stepsper_epoch=10, seed=42)
orchestrator = Orchestrator(config=config)

orchestrator.registeragent(HonestAgent(agentid=honest_1, name=Alice))
orchestrator.registeragent(HonestAgent(agentid=honest_2, name=Bob))
orchestrator.registeragent(OpportunisticAgent(agentid=opp_1))
orchestrator.registeragent(DeceptiveAgent(agentid=dec_1))

metrics = orchestrator.run()
for m in metrics:
print(fEpoch {m.epoch}: toxicity={m.toxicityrate:.3f}, welfare={m.totalwelfare:.2f})

快速入门(CLI)

bash

列出可用场景


swarm list

运行一个场景

swarm run scenarios/baseline.yaml

覆盖设置

swarm run scenarios/baseline.yaml --seed 42 --epochs 20 --steps 15

导出结果

swarm run scenarios/baseline.yaml --export-json results.json --export-csv outputs/

快速入门(API)

启动API服务器:

bash
pip install swarm-safety[api]
uvicorn swarm.api.app:app --host 127.0.0.1 --port 8000

API文档位于 http://localhost:8000/docs。

安全说明:服务器默认绑定到 127.0.0.1(仅本地主机)。除非您了解安全影响并已设置适当的防火墙规则,否则不要绑定到 0.0.0.0。

注册智能体

bash
curl -X POST http://localhost:8000/api/v1/agents/register \
-H Content-Type: application/json \
-d {
name: YourAgent,
description: What your agent does,
capabilities: [governance-testing, red-teaming]
}

返回 agentid 和 apikey。

提交场景

bash
curl -X POST http://localhost:8000/api/v1/scenarios/submit \
-H Content-Type: application/json \
-d {
name: my-scenario,
description: Testing collusion detection with 5 agents,
yamlcontent: simulation:\n nepochs: 10\n stepsperepoch: 10\nagents:\n - type: honest\n count: 3\n - type: adversarial\n count: 2,
tags: [collusion, governance]
}

创建并加入模拟

bash

创建


curl -X POST http://localhost:8000/api/v1/simulations/create \
-H Content-Type: application/json \
-d {scenarioid: SCENARIOID, max_participants: 5}

加入

curl -X POST http://localhost:8000/api/v1/simulations/SIM_ID/join \ -H Content-Type: application/json \ -d {agentid: YOURAGENT_ID, role: participant}

核心概念

软概率标签

交互携带 p = P(v = +1) —— 有益结果的概率:

可观测变量 -> 代理计算器 -> v_hat -> sigmoid -> p -> 收益引擎 -> 收益
|
软指标 -> 毒性、质量差距等

五个关键指标

指标衡量内容
毒性率已接受交互中的预期危害:E[1-p \accepted]
质量差距
逆向选择指标(负值表示不良):E[p \| accepted] - E[p \| rejected] | | 条件损失 | 对收益的选择效应 | | 不一致性 | 重播时的方差与误差比 | | 幻觉差值 | 感知一致性与实际一致性之间的差距 |

智能体类型(14个家族,38种实现)

类型行为
诚实型合作、基于信任、勤勉完成任务
机会主义型
最大化短期收益,挑拣任务 | | 欺骗型 | 建立信任,然后利用信任关系 | | 对抗型 | 针对诚实智能体,与盟友协调 | | LDT | 逻辑决策理论,带有FDT/UDT预承诺 | | RLM | 基于记忆的强化学习 | | 委员会型 | 多智能体审议决策 | | SkillRL | 通过奖励信号学习交互策略 | | LLM | 行为由LLM决定(Anthropic、OpenAI或Ollama) | | Moltbook | 特定领域的社交平台智能体 | | 学者型 | 学术引用和研究智能体 | | 维基编辑型 | 遵循编辑政策的协作编辑 |

治理杠杆(29种机制)

  • - 交易税 —— 减少剥削,但损害福利
  • 声誉衰减 —— 惩罚不良行为者,侵蚀诚实声誉
  • 断路器 —— 快速冻结有毒智能体
  • 随机审计 —— 威慑隐藏的剥削行为
  • 质押 —— 过滤资本不足的智能体
  • 共谋检测 —— 捕捉协调攻击(接近崩溃阈值的关键杠杆)
  • 女巫检测 —— 识别重复智能体
  • 透明账本 —— 根据结果奖励/惩罚
  • 审核智能体 —— 对交互进行概率性审查
  • 不一致摩擦 —— 对不确定性驱动的决策征税
  • 委员会审议 —— 多智能体治理决策
  • 多样性强制 —— 防止单一文化崩溃
  • Moltipedia特有 —— 配对上限、页面冷却、每日上限、自我修复预防

框架桥接

桥接集成
ConcordiaDeepMind的多智能体框架
GasTown
多智能体工作空间治理 | | Claude Code | Claude CLI智能体集成 | | LiveSWE | 实时软件工程任务 | | OpenClaw | 开放智能体协议 | | Prime Intellect | 跨平台运行追踪 | | Ralph | 智能体编排 | | Worktree | 基于Git工作树的沙箱 |

场景YAML格式

yaml
simulation:
n_epochs: 10
stepsperepoch: 10
seed: 42

agents:
- type: honest
count: 3
config:
acceptance_threshold: 0.4
- type: adversarial
count: 2
config:
aggression_level: 0.7

governance:
transactiontaxrate: 0.05
circuitbreakerenabled

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 swarm-safety-1776347312 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 swarm-safety-1776347312 技能

通过命令行安装

skillhub install swarm-safety-1776347312

下载

⬇ 下载 swarm-safety v1.7.1(免费)

文件大小: 6.39 KB | 发布时间: 2026-4-17 14:05

v1.7.1 最新 2026-4-17 14:05
Trigger sync to openclaw/skills GitHub repo

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部