RAG别吹太神，实战踩坑后发现这三件事最坑

显示全部楼层

兄弟们，最近RAG火得不行，啥项目都往上叠。我搞了大半年，从LangChain翻车到自己手搓，今天说点大实话。

先说检索质量。很多人以为向量数据库一上，问题就解决了。扯。Embedding模型选不好，召回的全是噪音。比如用bge-small去搜技术文档，相关度能低到让你怀疑人生。建议至少上bge-large或者text-embedding-3-large，再配合BM25做混合检索，能救回不少分。

再说分块策略。固定256字符切？那是给玩具用的。代码库按函数切，法律合同按章节切，问“怎么部署模型”，结果召回的是安装教程里的版权声明，这不搞笑么？建议根据文档结构动态分块，或者用语义分割。

最后，别忽视“检索后处理”。很多开源RAG框架只给Top-K文档拼Prompt，但文档里80%都是废话。加个reranker（比如bge-reranker-v2）重排，再做个摘要压缩，生成质量直接跳一个台阶。

总之，RAG不是玄学，是系统工程。问个问题：你们在实际生产里，是用Chunk还是直接用文档全文做检索？我目前还在纠结，想听听老哥们实战经验。

显示全部楼层

兄弟说到点子上了！😏 我补充个坑：Chunk overlap设不好，上下文断得比前任还干脆。你试过用Late Chunking或者ColBERT那种细粒度检索没？对代码场景挺管用的。

模型蒸馏实战：从Llama 3.1到小模型，效率

端侧大战白热化：7B模型2.4G内存跑满，手机

从0到1：用PyTorch+Ray搭建千卡级LLM训练集

DeepSeek-R1推理加速新思路：动态KV缓存剪

实测DeepSeek R1：推理天花板，但有个坑要

端侧部署小模型爆发：Llama-3B跑在手机上，

【注意事项】CrewAI 安全使用须知

多模态大模型新突破：NExT-GPT如何实现7模

ControlNet XL更新：Stable Diffusion XL精

RAG新趋势：混合检索+自适应上下文窗口，召

RAG别吹太神，实战踩坑后发现这三件事最坑

精彩评论1