RAG实战避坑指南：别再只把检索当花瓶了🛑

显示全部楼层

兄弟们，RAG（检索增强生成）现在基本成了大模型落地的标配方案，但很多人做着做着就翻车了。我今天直接说几个硬核点，省得你们走弯路。

先说检索质量：别以为随便搭个向量数据库就完事了。Embedding模型的选择直接决定了检索的召回率。用OpenAI的text-embedding-ada-002？可以，但中文场景下试试BAAI/bge-large-zh-v1.5，效果明显更稳。另外，chunk切分策略很关键，别死脑筋固定长度，结合语义边界切分，比如按段落或句子，能减少噪声。

再说生成环节：模型不是万能的。你喂进去一堆无关信息，LLM照样会编造幻觉。我建议做rerank（重排序），先召回top-20，再用cross-encoder精排到top-5，这样上下文质量直接起飞。部署时，用vLLM或TGI跑推理，吞吐量能提升不少。

最后，别忘了监控。加个评估流水线，用RAGAS或TruLens测一下忠实度和答案相关性，别等到用户骂街才反应过来。

🔥 提问时间：你们在实际项目中，RAG最大的坑是检索不准，还是模型输出幻觉？来评论区聊聊优化方案。