返回顶部
s

semantic-consistency-auditor 语义一致性审计

Use semantic consistency auditor for academic writing workflows that need structured execution, explicit assumptions, and clear output boundaries.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
80
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

semantic-consistency-auditor

技能:语义一致性审核器

ID: 212
名称: semantic-consistency-auditor
描述: 引入BERTScore和COMET算法,从“语义蕴含”层面评估AI生成的临床笔记与专家金标准之间的语义一致性。

使用时机

  • - 当任务需要使用语义一致性审核器进行学术写作工作流,且需要结构化执行、明确假设和清晰输出边界时,使用此技能。
  • 当学术写作任务需要明确假设、限定范围和可复现的输出格式时,使用此技能。
  • 当需要针对缺失输入、执行错误或部分证据提供有文档记录的备用路径时,使用此技能。

主要特性

  • - 聚焦范围的工作流,对齐于:使用语义一致性审核器进行需要结构化执行、明确假设和清晰输出边界的学术写作工作流。
  • 打包的可执行路径:scripts/main.py。
  • 参考资料位于 references/ 目录,提供任务特定指导。
  • 结构化执行路径,旨在保持输出一致性和可审查性。

依赖项

相关详情请参见上文的## 先决条件。

  • - Python: 3.10+。当前打包技能的仓库基线。
  • bert_score: 未指定。在 requirements.txt 中声明。
  • comet: 未指定。在 requirements.txt 中声明。
  • dataclasses: 未指定。在 requirements.txt 中声明。
  • numpy: 未指定。在 requirements.txt 中声明。
  • torch: 未指定。在 requirements.txt 中声明。
  • yaml: 未指定。在 requirements.txt 中声明。

使用示例

相关详情请参见上文的## 用法。

bash
cd 20260318/scientific-skills/Academic Writing/semantic-consistency-auditor
python -m py_compile scripts/main.py
python scripts/main.py --help

示例运行计划:

  1. 1. 确认用户输入、输出路径以及任何必需的配置值。
  2. 如果脚本使用固定设置,编辑文件内的 CONFIG 块或文档化参数。
  3. 使用验证后的输入运行 python scripts/main.py。
  4. 审查生成的输出,并返回最终产物,同时注明所有假设。

实现细节

相关详情请参见上文的## 工作流。

  • - 执行模型:验证请求,选择打包的工作流,并生成有边界的可交付成果。
  • 输入控制:在运行任何脚本前,确认源文件、范围限制、输出格式和验收标准。
  • 主要实现面:scripts/main.py。
  • 参考指南:references/ 包含支持性规则、提示或检查清单。
  • 需优先明确的参数:输入路径、输出路径、范围过滤器、阈值以及任何领域特定约束。
  • 输出纪律:保持结果可复现,明确标识假设,避免未文档化的副作用。

快速检查

使用此命令验证打包的脚本入口点在深入执行前可被解析。

bash
python -m py_compile scripts/main.py

审计就绪命令

使用这些具体命令进行验证。它们有意保持自包含,避免使用占位符路径。

bash
python -m py_compile scripts/main.py
python scripts/main.py --help

工作流

  1. 1. 在进行详细工作前,确认用户目标、所需输入和不可协商的约束条件。
  2. 验证请求是否与文档化范围匹配,如果任务需要不支持的假设,则尽早停止。
  3. 使用打包的脚本路径或文档化的推理路径,仅使用实际可用的输入。
  4. 返回结构化结果,将假设、可交付成果、风险和未解决事项分开。
  5. 如果执行失败或输入不完整,切换到备用路径,并明确说明阻止完整执行的具体原因。

概述

语义一致性审核器是一种医学AI评估工具,用于从语义层面评估AI生成的临床笔记与专家编写的金标准之间的语义一致性。该工具不局限于传统的字符串匹配或词袋模型,而是使用深度学习模型理解语义蕴含关系,能够识别措辞不同但含义相似的表达。

算法

1. BERTScore

BERTScore使用预训练的BERT模型上下文嵌入来计算候选文本与参考文本之间的相似度:
  • - 精确率:候选文本中的语义被参考文本覆盖的程度
  • 召回率:参考文本中的语义被候选文本覆盖的程度
  • F1分数:精确率和召回率的调和平均值

2. COMET(跨语言翻译评估优化指标)

COMET是一种基于神经网络的评估指标,最初用于机器翻译评估,适用于语义蕴含任务:
  • - 使用XLM-RoBERTa编码器捕获深层语义
  • 输出0-1之间的语义一致性分数
  • 对语义等价但表达不同的文本给予高分

安装

text

创建虚拟环境(推荐)

python -m venv venv source venv/bin/activate # Linux/Mac

或 venv\Scripts\activate # Windows

安装依赖

pip install bertscore comet-ml transformers torch

配置

在 ~/.openclaw/skills/semantic-consistency-auditor/config.yaml 中配置:

yaml

BERTScore配置

bertscore: model: microsoft/deberta-xlarge-mnli # 中文可使用 bert-base-chinese lang: zh # 语言代码:zh, en等 rescalewithbaseline: true device: auto # auto, cpu, cuda

COMET配置

comet: model: Unbabel/wmt22-comet-da # COMET模型 batch_size: 8 device: auto

评估阈值

thresholds: bertscore_f1: 0.85 comet_score: 0.75 semantic_consistency: 0.80 # 综合分数阈值

用法

命令行

text

评估单个病例对

python scripts/main.py \ --ai-generated 患者发热3天,最高体温39°C,伴有咳嗽。 \ --gold-standard 患者主诉发热3天,最高体温39°C,伴有咳嗽症状。 \ --output results.json

从JSON文件批量评估

python scripts/main.py \ --input-file batch_cases.json \ --output results.json \ --format detailed

使用特定模型

python scripts/main.py \ --ai-generated ... \ --gold-standard ... \ --bert-model bert-base-chinese \ --comet-model Unbabel/wmt20-comet-da

Python API

python
from semanticconsistencyauditor import SemanticConsistencyAuditor

初始化评估器

auditor = SemanticConsistencyAuditor( bert_model=microsoft/deberta-xlarge-mnli, comet_model=Unbabel/wmt22-comet-da, lang=zh )

评估单个病例

result = auditor.evaluate( ai_text=患者发热3天..., gold_text=患者主诉发热3天... )

print(fBERTScore F1: {result[bertscore][f1]:.4f})
print(fCOMET分数: {result[comet][score]:.4f})
print(f一致性: {result[consistency]:.4f})
print(f通过: {result[passed]})

批量评估

results = auditor.evaluate_batch([ {ai: ..., gold: ...}, {ai: ..., gold: ...} ])

输入格式

单个病例(命令行)

通过 --ai-generated 和 --gold-standard 参数直接传递文本。

批量评估文件(JSON)

json
[
{
case_id: CASE001,
ai_generated: 患者发热3天,最高体温39°C,伴有咳嗽。,
gold_standard: 患者主诉发热3天,最高体温39°C,伴有咳嗽症状。,
metadata: {
department: 呼吸科,
disease_type: 上呼吸道感染
}
},
{
case_id: CASE002,
ai_generated: ...,
gold_standard: ...
}
]

输出格式

摘要模式

json
{
overall: {
total_cases: 100,
passed_cases: 85,
pass_rate: 0.85,
avgbertscoref1: 0.8923,
avgcometscore: 0.8234,
avg_consistency: 0.8579
},
thresholds: {
bertscore_f1: 0.85,
comet_score: 0.75,
semantic_consistency: 0.80
}
}

详细模式

json

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 semantic-consistency-auditor-1775902809 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 semantic-consistency-auditor-1775902809 技能

通过命令行安装

skillhub install semantic-consistency-auditor-1775902809

下载

⬇ 下载 semantic-consistency-auditor v1.0.0(免费)

文件大小: 11.69 KB | 发布时间: 2026-4-12 11:19

v1.0.0 最新 2026-4-12 11:19
Initial release of Semantic Consistency Auditor.

- Adds BERTScore and COMET algorithms to assess semantic consistency between AI-generated and expert clinical texts.
- Provides a structured, audit-focused workflow for academic and medical writing tasks.
- Includes command line and Python API usage with example commands and configuration options.
- Offers fallback and error handling paths for incomplete inputs or execution issues.
- Supports configuration of models, language, and evaluation thresholds for flexible deployment.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部