RAG实战复盘：别再说你懂检索增强生成了 🚀

显示全部楼层

兄弟们，聊点硬核的。最近帮团队搞了一个基于RAG的企业知识库QA系统，踩了不少坑，分享几条血泪经验。

先说检索层。别上来就怼向量库，先把分块策略想明白——固定512token？太死板。试试语义分块+滑动窗口重叠，召回率能涨10%。还有Embedding模型，别迷信OpenAI，本地用bge-large-zh-v1.5，延迟低且中文效果真不差。

再说生成层。很多人以为RAG就是把检索结果丢给LLM完事。天真！检索结果直接拼接，上下文窗口塞爆不说，无关片段还会带偏模型。必须做rerank压缩和过滤，我习惯用Cohere的rerank模型，或者自己写个BM25做粗筛。

部署方面，建议用LangChain或LlamaIndex的Pipeline模式，把检索->重排->生成串成链，中间加个缓存层，高频问题直接命中，降本增效。

最后提醒：RAG不是万能药。如果你要处理复杂推理或长文档总结，建议结合Agent思路，让模型自己决定是否搜索。

抛个问题：你们在实际项目中，遇到过检索结果质量很好但LLM回答依然翻车的情况吗？怎么解决的？欢迎开喷讨论。