返回顶部
c

corpus-builder语料构建器

语料库构建工具,支持智能分块、AI 标注、向量化存储。可选 LLM 标注(需 DashScope API)或规则降级。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.1.2
安全检测
已通过
136
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

corpus-builder

Corpus Builder - 语料库构建工具

轻量级语料库构建工具,针对中文小说优化,支持场景智能分块、10 维度 AI 标注、ChromaDB 向量存储。

标注模式

  • - LLM 模式(推荐):使用 DashScope API 进行智能标注(需 DASHSCOPEAPIKEY)
  • 规则模式(降级):无 API 时使用规则引擎自动标注(完全离线)

🔐 安全说明

本技能承诺

  • - ✅ API Key 通过环境变量 DASHSCOPEAPIKEY 传递
  • 不读取 ~/.openclaw/ 目录或任何全局配置文件
  • 不存储 API Key 到 skill 目录或本地文件
  • 不使用 subprocess 调用外部 CLI 工具
  • 不访问 其他 provider 的凭证

环境配置

LLM 模式(需要 API Key)

设置环境变量(唯一支持的方式):

bash

临时设置(当前终端有效)


export DASHSCOPEAPIKEY=sk-xxx

永久设置(添加到 ~/.bashrc)

echo export DASHSCOPEAPIKEY=sk-xxx >> ~/.bashrc source ~/.bashrc

⚠️ 注意: 不要将 API Key 提交到 Git 或分享给他人。

规则模式(完全离线)

无需 API Key,自动使用规则引擎进行标注:

  • - 不设置 DASHSCOPEAPIKEY 环境变量
  • 技能自动降级到规则标注模式
  • 质量较低但完全离线运行

可选:SQLite3 兼容性

如果运行时报错 sqlite3 version < 3.35.0:

bash

安装 pysqlite3-binary(仅旧系统需要)


pip3 install pysqlite3-binary --user

现代系统(Ubuntu 20.04+, macOS 12+, Python 3.10+)通常不需要。

快速开始

构建语料库

bash
cd ~/.openclaw/workspace/skills/corpus-builder

1. 批量处理小说文本

python3 scripts/build_corpus.py \ --source ~/workspace/novels/reference \ --name 玄幻打斗 \ --genre 玄幻 \ --max-chunk-size 2000

2. 查看统计信息

python3 scripts/build_corpus.py \ --stats \ --collection 玄幻打斗

3. 导出标注数据

python3 scripts/build_corpus.py \ --export json \ --collection 玄幻打斗 \ --output results.json

💡 需要检索语料? 请使用 corpus-search 技能。

标注数据示例

json
{
scene_type: 打斗,
emotion: 紧张,
quality_score: 8,
original_text: ...,
source_file: 没钱修什么仙.txt
}

依赖安装

bash cd ~/.openclaw/workspace/skills/corpus-builder pip3 install -r requirements.txt --user

必需依赖
用途
chromadb向量数据库
sentence-transformers
嵌入模型 |

| pyyaml | YAML 处理 | | rich | CLI 美化 | | psutil | 内存监控 |

内存优化

  • - 监控阈值: 2.5GB
  • 自动释放: 浏览器/模型缓存
  • 批量策略: AI 标注 5/批,向量化 32/批
  • 增量处理: 断点续传,避免重复

配置文件

编辑 configs/default_config.yml: yaml chunking: maxchunksize: 2000 minchunksize: 100 overlap: 200 processing: batch_size: 5 embeddingbatchsize: 32 max_workers: 3 models: embedding: BAAI/bge-small-zh-v1.5 annotation: dashscope-coding/qwen3.5-plus storage: persist_directory: ./corpus/chroma checkpoint_dir: ./corpus/cache

故障排除

内存过高

bash

降低内存限制

python3 scripts/build_corpus.py \ --source ./novels \ --name test \ --memory-limit 1500 \ --batch-size 3

LLM 调用失败

使用规则降级方案,标注结果仍可生成,只是质量得分较低。

ChromaDB 错误

删除向量库重新构建: bash rm -rf corpus/chroma/{collection_name} python3 scripts/build_corpus.py --source ./novels --name test

相关脚本
脚本用途
scripts/build_corpus.py主程序(语料库构建)

许可证

MIT License
Created for OpenClaw 🦞 Version: 1.0.0 Last Updated: 2026-03-28

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 corpus-builder-1775900043 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 corpus-builder-1775900043 技能

通过命令行安装

skillhub install corpus-builder-1775900043

下载

⬇ 下载 corpus-builder v1.1.2(免费)

文件大小: 40.15 KB | 发布时间: 2026-4-12 09:36

v1.1.2 最新 2026-4-12 09:36
修复 ClawHub 审查问题

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部