返回顶部
C

ClawText Ingest多源记忆摄取

Multi-source memory ingestion with Discord support, automatic deduplication, and agent-ready patterns

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.1
安全检测
已通过
369
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

ClawText Ingest

ClawText Ingest — 生产级记忆摄取

版本: 1.3.0 | 许可证: MIT | 状态: 生产就绪 ✅
作者: ragesaq | 类别: 记忆与知识管理
GitHub: https://github.com/ragesaq/clawtext-ingest



🎯 功能概述

ClawText Ingest 将外部数据(Discord 论坛、文件、URL、JSON、文本)转换为结构化的、去重后的记忆,供 AI 智能体使用。

解决的问题

  • - ❌ 手动摄取 — 繁琐、易错、无元数据
  • 重复记忆 — 同一数据被多次摄取
  • 非结构化数据 — 无层级结构、无上下文保留
  • 一次性导入 — 无定期/定时摄取
  • Discord 特有缺陷 — 无法保留论坛帖子↔回复结构

解决方案

一条命令即可从 Discord、文件、URL 或 JSON 导入
100% 幂等 — 运行 1000 次,零重复
自动元数据 — 包含日期、项目、类型、实体的 YAML 前置元数据
6 种智能体模式 — 自主工作流已文档化且可直接使用
Discord 原生支持 — 保留论坛层级结构、进度条、自动批处理模式



✨ 核心特性

🎯 Discord 集成(v1.3.0 新增)

  • - 支持论坛 + 频道 + 线程
  • 层级结构保留 — 元数据中的帖子↔回复结构
  • 实时进度 — 大规模摄取时的实时反馈
  • 自动批处理模式 — <500 条帖子:完整模式,≥500 条帖子:流式模式
  • 一键设置 — 5 分钟创建机器人

📁 多源摄取

  • - 文件 — Glob 模式(Markdown、文本等)
  • URL — 单个或批量 URL 摄取
  • JSON — 聊天导出、API 响应
  • 原始文本 — 快速知识捕获
  • 批量操作 — 从多个来源统一摄取

🔄 去重与安全

  • - 基于 SHA1 — 加密哈希匹配
  • 100% 幂等 — 可安全重复运行
  • 可配置 — 每次操作可设置 checkDedupe: true/false
  • 零数据丢失 — 跟踪失败项,逐项回退摄取
  • 哈希持久化 — .ingest_hashes.json 用于跨会话跟踪

🤖 智能体就绪

  • - 6 种文档化模式 — 直接 API、Discord 智能体、CLI、Cron、批量、线程
  • 可运行代码示例 — 复制即用
  • 真实场景模式 — GitHub 同步、Discord 监控、团队决策
  • 错误处理 — 全面的错误恢复
  • 进度回调 — 实时跟踪摄取进度

🛠️ 开发者友好

  • - CLI 工具 — clawtext-ingest + clawtext-ingest-discord 命令
  • Node.js API — 简单导入,便于编程使用
  • TypeScript 就绪 — 清晰的方法签名
  • 可扩展 — 自定义转换、字段映射
  • 文档完善 — 11 份指南,20+ 示例

🔗 ClawText 集成

  • - 自动集群索引 — 重建后新记忆自动索引
  • RAG 注入 — 相关上下文注入到智能体提示中
  • 项目路由 — 按项目/来源组织记忆
  • 实体链接 — 自动提取并链接相关实体

🚀 快速开始

安装

bash

通过 npm


npm install clawtext-ingest

通过 OpenClaw

openclaw install clawtext-ingest

Discord 摄取(5 分钟)

bash

1. 设置 Discord 机器人(参见 DISCORDBOTSETUP.md)


2. 获取机器人令牌,设置 DISCORD_TOKEN 环境变量

3. 检查论坛

clawtext-ingest-discord describe-forum --forum-id FORUM_ID --verbose

4. 带进度条摄取

DISCORDTOKEN=xxx clawtext-ingest-discord fetch-discord --forum-id FORUMID

5. 重建 ClawText 集群

clawtext-ingest rebuild

文件摄取

bash
clawtext-ingest ingest-files --input=docs/*.md --project=docs

Node.js API

javascript
import { ClawTextIngest } from clawtext-ingest;

const ingest = new ClawTextIngest();

// 摄取文件
await ingest.fromFiles([docs//*.md], { project: docs, type: fact });

// 摄取 JSON
await ingest.fromJSON(chatArray, { project: team }, {
keyMap: { contentKey: message, dateKey: timestamp, authorKey: user }
});

// 重建集群以用于 RAG 注入
await ingest.rebuildClusters();



🤖 智能体集成(6 种模式)

模式 1:直接 API

适用场景: 智能体内部代码 使用时机: 智能体需要在工作流中摄取数据

javascript
const ingest = new ClawTextIngest();
await ingest.fromFiles([docs//*.md], { project: docs });

模式 2:Discord 智能体

适用场景: 自主 Discord 摄取 使用时机: 智能体需要获取 Discord 论坛数据

javascript
const runner = new DiscordIngestionRunner(ingest);
await runner.ingestForumAutonomous({
forumId, mode: batch, token: process.env.DISCORD_TOKEN
});

模式 3:CLI 子进程

适用场景: 智能体执行命令 使用时机: 需要更简单的基于 CLI 的执行方式

javascript
await execAsync(clawtext-ingest-discord fetch-discord --forum-id ID);

模式 4:Cron/定时任务

适用场景: 重复性任务 使用时机: 需要每日/每小时摄取

javascript
cron.schedule(0 , () => agentIngest());

模式 5:批量多源

适用场景: 统一摄取 使用时机: 一次操作涉及多个来源

javascript
await ingest.ingestAll([
{ type: files, data: [docs//*.md], metadata: {...} },
{ type: json, data: chatExport, metadata: {...} }
]);

模式 6:Discord 线程

适用场景: 特定线程摄取 使用时机: 需要获取单个线程

javascript
await runner.ingestThread(threadId);

→ 完整示例请参见 AGENT_GUIDE.md



📊 真实场景示例

示例 1:每日文档同步

javascript
async function syncDocsDaily() {
const ingest = new ClawTextIngest();
const result = await ingest.ingestAll([
{ type: files, data: [docs//*.md], metadata: { project: docs } },
{ type: urls, data: [https://docs.example.com/api], metadata: { project: api-docs } }
]);
await ingest.rebuildClusters();
return result;
}

示例 2:Discord 论坛监控

javascript
async function monitorDiscordForum(forumId) {
const ingest = new ClawTextIngest();
const runner = new DiscordIngestionRunner(ingest);

const result = await runner.ingestForumAutonomous({
forumId,
mode: batch,
token: process.env.DISCORD_TOKEN,
onProgress: (p) => console.log(${p.percent}% complete...)
});

return result;
}

示例 3:团队决策摄取

javascript
async function ingestTeamDecisions() {
const ingest = new ClawTextIngest();

const result = await ingest.ingestAll([
{ type: files, data: [decisions/adr//*.md], metadata: { type: adr } },
{ type: json, data: slackThread, metadata: { type: decision, source: slack } }
]);

await ingest.rebuildClusters();
return result;
}



🛒 CLI 命令

clawtext

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 clawtext-ingest-1776275256 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 clawtext-ingest-1776275256 技能

通过命令行安装

skillhub install clawtext-ingest-1776275256

下载

⬇ 下载 ClawText Ingest v1.0.1(免费)

文件大小: 121.21 KB | 发布时间: 2026-4-16 18:29

v1.0.1 最新 2026-4-16 18:29
**v1.0.1 — Adds Discord ingestion, CLI, and agent-ready documentation patterns**

- Major rewrite: Adds Discord forum/channel/thread ingestion with hierarchy preservation and real-time progress
- New CLI tools: `clawtext-ingest` and `clawtext-ingest-discord` for one-command ingestion from files, URLs, JSON, and Discord
- Expanded documentation: 11 new guides and references covering agent patterns, CLI use, enhancement workflows, and Discord setup
- Improved agent integration: Six documented ingestion patterns for direct API, CLI, batch, Discord agent, cron/scheduled, and thread-specific use
- Updated deduplication and error handling for robust, production-ready multi-source ingestion

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
返回顶部