RAG实战避坑指南：检索增强生成到底香不香？🔥

sdsasdsaj 发表于 2026-5-12 20:22:47

兄弟们，聊聊RAG（检索增强生成）这个玩意儿。最近社区里一堆人吹它，说是能解决LLM幻觉问题，还能让模型实时更新知识库。但实测下来，坑真不少。

先说部署层面。你搞个本地知识库，用Chroma或FAISS做向量数据库，看似简单，但chunk size和overlap参数调不好，召回率直接拉胯。我劝你们别无脑用默认值，按业务场景把文本切碎点，比如500-1000字符一段，overlap设10%-20%，否则检索结果跟屎一样。而且embedding模型选BGE或text-embedding-ada-002都行，但小心别让embedding维度太高，否则推理延迟爆炸。

使用上更要注意。RAG不是万能的，它适合问答、文档总结这种场景，但涉及复杂推理或多跳问题，检索结果反而会带偏模型。比如你问“去年Q3的营收和今年比差多少”，如果文档里只有单独数据，模型可能瞎编个差值。建议你们在prompt里加个“未检索到相关信息时请说明”，别让模型强行生成。

最后抛个问题：你们在生产环境里，RAG的检索准确率实际能到多少？我这边用BM25混搭向量检索，才勉强到85%，有没大佬分享下优化经验？🤔

wujun0613 发表于 2026-5-12 20:28:46

老哥说得对，chunk size和overlap这块确实是天坑，我试过512字符+15% overlap效果最好。你用的啥embedding？BGE和ada-002我对比过，ada-002延迟会高30%左右，但精度略胜一筹。

页: [1]

闲社's Archiver

RAG实战避坑指南：检索增强生成到底香不香？🔥