AI RAG Pipeline
Build RAG (Retrieval Augmented Generation) pipelines via inference.sh CLI.

Quick Start
CODEBLOCK0
Install note: The install script only detects your OS/architecture, downloads the matching binary from dist.inference.sh, and verifies its SHA-256 checksum. No elevated permissions or background processes. Manual install & verification available.
What is RAG?
RAG combines:
- 1. Retrieval: Fetch relevant information from external sources
- Augmentation: Add retrieved context to the prompt
- Generation: LLM generates response using the context
This produces more accurate, up-to-date, and verifiable AI responses.
RAG Pipeline Patterns
Pattern 1: Simple Search + Answer
CODEBLOCK1
Pattern 2: Multi-Source Research
CODEBLOCK2
Pattern 3: Extract + Process
CODEBLOCK3
Available Tools
Search Tools
| Tool | App ID | Best For |
|---|
| Tavily Search | INLINECODE1 | AI-powered search with answers |
| Exa Search |
exa/search | Neural search, semantic matching |
| Exa Answer |
exa/answer | Direct factual answers |
Extraction Tools
| Tool | App ID | Best For |
|---|
| Tavily Extract | INLINECODE4 | Clean content from URLs |
| Exa Extract |
exa/extract | Analyze web content |
LLM Tools
| Model | App ID | Best For |
|---|
| Claude Sonnet 4.5 | INLINECODE6 | Complex analysis |
| Claude Haiku 4.5 |
openrouter/claude-haiku-45 | Fast processing |
| GPT-4o |
openrouter/gpt-4o | General purpose |
| Gemini 2.5 Pro |
openrouter/gemini-25-pro | Long context |
Pipeline Examples
Basic RAG Pipeline
CODEBLOCK4
Multi-Source Research
CODEBLOCK5
URL Content Analysis
CODEBLOCK6
Fact-Checking Pipeline
CODEBLOCK7
Research Report Generator
CODEBLOCK8
Quick Answer with Sources
CODEBLOCK9
Best Practices
1. Query Optimization
CODEBLOCK10
2. Context Management
CODEBLOCK11
3. Source Attribution
Always ask the LLM to cite sources:
CODEBLOCK12
4. Iterative Research
CODEBLOCK13
Pipeline Templates
Agent Research Tool
CODEBLOCK14
Related Skills
CODEBLOCK15
Browse all apps: INLINECODE10
Documentation
AI RAG 管道
通过 inference.sh CLI 构建 RAG(检索增强生成)管道。

快速开始
bash
curl -fsSL https://cli.inference.sh | sh && infsh login
简单 RAG:搜索 + 大语言模型
SEARCH=$(infsh app run tavily/search-assistant --input {query: 2024年AI最新发展})
infsh app run openrouter/claude-sonnet-45 --input {
\prompt\: \基于这项研究,总结关键趋势:$SEARCH\
}
安装说明: 安装脚本仅检测您的操作系统/架构,从 dist.inference.sh 下载匹配的二进制文件,并验证其 SHA-256 校验和。无需提升权限或后台进程。提供手动安装与验证。
什么是 RAG?
RAG 结合了:
- 1. 检索:从外部来源获取相关信息
- 增强:将检索到的上下文添加到提示词中
- 生成:大语言模型利用上下文生成响应
这能产生更准确、更新及时且可验证的 AI 响应。
RAG 管道模式
模式 1:简单搜索 + 回答
[用户查询] -> [网络搜索] -> [带上下文的大语言模型] -> [回答]
模式 2:多源研究
[查询] -> [多次搜索] -> [聚合] -> [大语言模型分析] -> [报告]
模式 3:提取 + 处理
[URL] -> [内容提取] -> [分块] -> [大语言模型摘要] -> [输出]
可用工具
搜索工具
| 工具 | 应用 ID | 最佳用途 |
|---|
| Tavily 搜索 | tavily/search-assistant | 带答案的 AI 驱动搜索 |
| Exa 搜索 |
exa/search | 神经搜索,语义匹配 |
| Exa 回答 | exa/answer | 直接事实性答案 |
提取工具
| 工具 | 应用 ID | 最佳用途 |
|---|
| Tavily 提取 | tavily/extract | 从 URL 提取干净内容 |
| Exa 提取 |
exa/extract | 分析网页内容 |
大语言模型工具
| 模型 | 应用 ID | 最佳用途 |
|---|
| Claude Sonnet 4.5 | openrouter/claude-sonnet-45 | 复杂分析 |
| Claude Haiku 4.5 |
openrouter/claude-haiku-45 | 快速处理 |
| GPT-4o | openrouter/gpt-4o | 通用目的 |
| Gemini 2.5 Pro | openrouter/gemini-25-pro | 长上下文 |
管道示例
基础 RAG 管道
bash
1. 搜索信息
SEARCH_RESULT=$(infsh app run tavily/search-assistant --input {
query: 2024年量子计算有哪些最新突破?
})
2. 生成有依据的响应
infsh app run openrouter/claude-sonnet-45 --input {
\prompt\: \你是一名研究助手。根据以下搜索结果,提供带有引用的全面摘要。
搜索结果:
$SEARCH_RESULT
提供结构良好的摘要并注明来源。\
}
多源研究
bash
搜索多个来源
TAVILY=$(infsh app run tavily/search-assistant --input {query: 2024年电动汽车市场趋势})
EXA=$(infsh app run exa/search --input {query: 电动汽车市场分析最新报告})
合并并分析
infsh app run openrouter/claude-sonnet-45 --input {
\prompt\: \分析这些研究结果,识别共同主题和矛盾之处。
来源 1(Tavily):
$TAVILY
来源 2(Exa):
$EXA
提供带有来源的平衡分析。\
}
URL 内容分析
bash
1. 从特定 URL 提取内容
CONTENT=$(infsh app run tavily/extract --input {
urls: [
https://example.com/research-paper,
https://example.com/industry-report
]
})
2. 分析提取的内容
infsh app run openrouter/claude-sonnet-45 --input {
\prompt\: \分析这些文档并提取关键见解:
$CONTENT
提供:
- 1. 主要发现
- 数据点
- 建议\
}
事实核查管道
bash
待验证的声明
CLAIM=AI 将在 2030 年前取代 50% 的工作岗位
1. 搜索证据
EVIDENCE=$(infsh app run tavily/search-assistant --input {
\query\: \$CLAIM 证据 研究 调查\
})
2. 验证声明
infsh app run openrouter/claude-sonnet-45 --input {
\prompt\: \事实核查此声明:$CLAIM
基于以下证据:
$EVIDENCE
提供:
- 1. 判定(真实/虚假/部分真实/未验证)
- 支持证据
- 反驳证据
- 来源\
}
研究报告生成器
bash
TOPIC=生成式 AI 对创意产业的影响
1. 初步研究
OVERVIEW=$(infsh app run tavily/search-assistant --input {\query\: \$TOPIC 概述\})
STATISTICS=$(infsh app run exa/search --input {\query\: \$TOPIC 统计数据\})
OPINIONS=$(infsh app run tavily/search-assistant --input {\query\: \$TOPIC 专家观点\})
2. 生成综合报告
infsh app run openrouter/claude-sonnet-45 --input {
\prompt\: \生成关于以下主题的综合研究报告:$TOPIC
研究数据:
== 概述 ==
$OVERVIEW
== 统计数据 ==
$STATISTICS
== 专家观点 ==
$OPINIONS
格式化为专业报告,包含:
}
带来源的快速回答
bash
使用 Exa 回答获取直接事实性问题
infsh app run exa/answer --input {
question: NVIDIA 目前的市值是多少?
}
最佳实践
1. 查询优化
bash
不好:过于模糊
AI 新闻
好:具体且有上下文
2024年1月大语言模型的最新发展
2. 上下文管理
bash
在发送给大语言模型之前总结长搜索结果
SEARCH=$(infsh app run tavily/search-assistant --input {query: ...})
如果太长,先总结
SUMMARY=$(infsh app run openrouter/claude-haiku-45 --input {
\prompt\: \用要点总结这些搜索结果:$SEARCH\
})
然后使用摘要进行分析
infsh app run openrouter/claude-sonnet-45 --input {
\prompt\: \基于此研究摘要,提供见解:$SUMMARY\
}
3. 来源归属
始终要求大语言模型引用来源:
bash
infsh app run openrouter/claude-sonnet-45 --input {
prompt: ... 始终以 来源名称 格式引用来源。
}
4. 迭代研究
bash
第一轮:广泛搜索
INITIAL=$(infsh app run tavily/search-assistant --input {query: 主题概述})
第二轮:基于发现深入挖掘
DEEP=$(infsh app run tavily/search-assistant --input {query: 初步搜索中的具体方面})
管道模板
代理研究工具
bash
#!/bin/bash
research.sh - 可重用的研究函数
research() {
local query=$1
# 搜索
local results=$(infsh app run tavily/search-assistant --input {\query\: \$query\})
# 分析
infsh app run openrouter/claude-haiku-45 --input {
\prompt\: \总结:$results\
}
}
research 在此输入您的