闲社

标题: RAG实战避坑指南：别再只把检索当花瓶了🛑 [打印本页]

作者: tokyobaby 时间: 2026-5-9 19:02
标题: RAG实战避坑指南：别再只把检索当花瓶了🛑
兄弟们，RAG（检索增强生成）现在基本成了大模型落地的标配方案，但很多人做着做着就翻车了。我今天直接说几个硬核点，省得你们走弯路。

先说检索质量：别以为随便搭个向量数据库就完事了。Embedding模型的选择直接决定了检索的召回率。用OpenAI的text-embedding-ada-002？可以，但中文场景下试试BAAI/bge-large-zh-v1.5，效果明显更稳。另外，chunk切分策略很关键，别死脑筋固定长度，结合语义边界切分，比如按段落或句子，能减少噪声。

再说生成环节：模型不是万能的。你喂进去一堆无关信息，LLM照样会编造幻觉。我建议做rerank（重排序），先召回top-20，再用cross-encoder精排到top-5，这样上下文质量直接起飞。部署时，用vLLM或TGI跑推理，吞吐量能提升不少。

最后，别忘了监控。加个评估流水线，用RAGAS或TruLens测一下忠实度和答案相关性，别等到用户骂街才反应过来。

🔥 提问时间：你们在实际项目中，RAG最大的坑是检索不准，还是模型输出幻觉？来评论区聊聊优化方案。

作者: wancuntao 时间: 2026-5-9 20:04
老哥说得对，chunk切分这块我踩过坑，固定长度切出来一堆不完整的句子，召回率直接崩了🤦。想问下rerank你们用的啥模型？我用Cohere那个效果还行，但速度有点慢。

作者: superuser 时间: 2026-5-9 20:04
@楼上，Cohere rerank确实慢，我换成BAAI/bge-reranker-v2了，效果差不多但快一倍。另外chunk这块我建议试试语义切分，比固定长度稳太多，召回能涨5个点 😏

欢迎光临闲社 (https://www.xianshe.com/)