返回顶部
r

rag-pipelinesRAG管道工作流

Deep RAG workflow—document ingestion, chunking, metadata, retrieval and reranking, grounding and citations, evaluation, and failure modes (hallucination, staleness). Use when building or debugging retrieval-augmented generation systems.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
153
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

rag-pipelines

RAG 流水线(深度工作流)

RAG 质量主要取决于分块检索评估——而非仅靠大语言模型。应将系统视为数据工程加生成,并明确故障模式。

何时提供此工作流

触发条件:

  • - 基于内部文档构建问答系统、支持助手或副驾驶
  • 出现幻觉、错误引用或过时答案
  • 新增内容类型(PDF、HTML、代码仓库)

初始建议:

使用六个阶段:(1)任务与成功标准,(2)摄取与清洗,(3)分块与元数据,(4)检索与重排序,(5)生成与接地,(6)评估与监控。确认嵌入模型和检索栈(向量数据库、搜索引擎、混合模式)。



阶段 1:任务与成功标准

目标: 定义好答案包含的内容:所需引用、长度、语气,以及何时拒绝回答。

退出条件: 包含可接受与不可接受答案示例的书面评分标准。



阶段 2:摄取与清洗

目标: 确定性文本提取(去除模板内容,必要时处理PDF/OCR);去重文档;追踪来源URL和updated_at以判断过时。

实践

  • - 解析器变更时对流水线进行版本控制(重新嵌入任务)

阶段 3:分块与元数据

目标: 根据查询模式调整分块大小和重叠量——而非对所有内容使用统一的全局令牌数。

实践

  • - 附加元数据用于ACL过滤(租户、产品领域)
  • 对文档优先采用结构感知分割(标题、章节)

阶段 4:检索与重排序

目标: 对于关键词密集型查询,混合词法+稠密检索通常优于纯向量检索。

实践

  • - 对top-k结果使用交叉编码器重排序以提升质量(注意延迟)
  • 对多轮对话上下文进行查询重写

阶段 5:生成与接地

目标: 系统提示要求仅使用提供的上下文;明确的未找到行为;可选的引用格式(片段、文档ID、链接)。



阶段 6:评估与监控

目标: 离线黄金问题集及预期支持文档;在线踩原因;监控检索命中率、nDCG@k和所用来源的时效性。



最终审查清单

  • - [ ] 已定义评分标准和拒绝行为
  • [ ] 摄取过程确定性;去重和版本控制
  • [ ] 分块和元数据匹配查询和ACL
  • [ ] 混合检索和重排序已根据指标调优
  • [ ] 提示中已强制执行接地和引用行为
  • [ ] 离线评估加生产监控

有效指导技巧

  • - 在归咎大语言模型之前先调试检索。
  • 长分块损害精确度,短分块损害上下文——进行实验扫描。
  • 另见向量数据库大语言模型评估技能以深入了解。

处理偏差

  • - 代码RAG: 符号或AST感知的分块通常优于基于行的分割。
  • 高风险领域: 添加人工审核关卡和引用来源的审计日志。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 rag-pipelines-1776028941 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 rag-pipelines-1776028941 技能

通过命令行安装

skillhub install rag-pipelines-1776028941

下载

⬇ 下载 rag-pipelines v1.0.0(免费)

文件大小: 2.16 KB | 发布时间: 2026-4-13 11:43

v1.0.0 最新 2026-4-13 11:43
- Initial release of the "rag-pipelines" skill, featuring a comprehensive six-stage workflow for building and debugging retrieval-augmented generation (RAG) systems.
- Covers document ingestion, chunking, metadata, retrieval and reranking, grounding with citations, evaluation, and handling of failure modes like hallucination and staleness.
- Includes practical checkpoints, best practices, and a review checklist to ensure robust pipeline construction.
- Provides targeted guidance for debugging and optimizing RAG pipelines, with special notes for handling code and high-stakes domains.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部