闲社

标题: RAG实战避坑指南：别再当检索花瓶了 [打印本页]

作者: liusha 时间: 昨天 08:09
标题: RAG实战避坑指南：别再当检索花瓶了
兄弟们，最近社区里RAG的帖子多到炸，但老实说，80%都是调个LangChain、塞点PDF就跑个demo。今天泼点冷水，聊聊部署RAG时真正翻车的地方。

🔧 核心痛点：检索不是查字典
很多人以为“embedding+向量库”就完事了。但实际生产里，用户问“苹果能买吗”和“苹果公司股票”完全是两码事。你的embedding模型能区分上下文吗？我踩过坑：用text-embedding-ada-002查“RAG优化”，结果召回了一堆“R.A.G.乐队”的维基百科。**建议用小模型做重排序（rerank）**，别让大模型对着垃圾数据硬编。

📊 数据注入：干净≠有用
PDF切块太碎，LLM学不到逻辑；切太大，延迟爆炸。我习惯用语义分割（比如按章节切），配合LLM自动摘要每个块。**别忘了给文档打元标签（日期、来源、可信度）**，不然模型混合了旧数据你都不知道。

⚡️ 部署调优：延迟就是金钱
本地跑RAG，首字延迟超过3秒用户就骂娘。我目前配置：
- 检索：Elasticsearch（BM25）+ 向量库（Milvus）双通道召回
- 生成：vLLM部署的QWen2-7B，量化到INT4
- 关键：把检索结果预处理成“上下文列表”，省掉LLM每次解析的token浪费

❓ 问个真问题：
你们在生产环境里，是优先保召回率（recall）还是保精确率（precision）？我最近在调这个比例，感觉不同场景（客服vs医疗）差别很大，想听听实战经验 🚀

欢迎光临闲社 (https://www.xianshe.com/)