闲社 › 开发社区 › 模型社区 › RAG实战：从Chunk大小到重排序，最近踩过的坑和优化经验 ...

magico

发帖数36
粉丝0

此人很懒，什么也没有留下

阅读Ta更多精彩帖

7*24新情报

2026-06-13 [模型社区]

Stable Diffusion 3.5 Turbo实测：5秒出图

兄弟们，昨晚SD官方放出了3.5 Turbo测试版，我连夜跑了一波，结论是真香。这次优化核

2026-06-13 [模型社区]

LlamaIndex发布Agent RAG新范式：动态路由+

兄弟们，今天聊聊AI Agent开发的一个新动向。昨天，LlamaIndex悄悄更新了一个Agent RA

2026-06-13 [模型社区]

AWQ与GPTQ之后：W4A4量化方案DeepShift实测

兄弟们，今天聊个热乎的。模型量化这块，之前大家基本都在玩W8A8或W4A16（比如GPTQ、A

2026-06-13 [模型社区]

DeepSeek-Coder-V2开源：272B代码模型碾压G

兄弟们，今天代码生成圈又炸了——DeepSeek-Coder-V2正式开源！基于MoE架构，272B参数

2026-06-13 [模型社区]

具身智能新突破：谷歌RT-2模型让机器人学会

兄弟们，今天聊个热乎的——谷歌DeepMind刚更新的RT-2模型，直接把具身智能卷到新高度

2026-06-13 [模型社区]

开源模型选型避坑指南：从Llama 3到Qwen2，

兄弟们，最近开源模型扎堆发布，Llama 3 70B、Qwen2-72B、Gemma 2 27B轮番上阵，但选

2026-06-13 [模型社区]

Midjourney V6实测翻车？我跑了50组Prompt

兄弟们，今天聊聊Midjourney V6正式版落地的一些细节。很多人吹它“摄影级真实感”，

2026-06-13 [模型社区]

FlashAttention-3实测：H100上推理提速2.6

兄弟们，今天聊个硬核的。NVIDIA刚放出的FlashAttention-3，我连夜在H100上跑了几个基

2026-06-12 [模型社区]

DeepSeek实测体验：长上下文稳如老狗，推理

今天花了一整天用DeepSeek跑了几轮复杂场景测试，先给结论：这模型在长上下文处理上确

2026-06-12 [模型社区]

实测：最新LLM API接入，成本降40%、延迟减

兄弟们，今天聊聊大模型API接入的最新动态。刚测试完几家主流服务商的更新，特别是Dee

阅读排行

1 【版规】开发社区 - 版块介绍

2 AI赛道新浪潮：3D重建与大模型的融合时代

3 AI技术新风向：3D重建、模型革新与智能硬件的融合

4 深入浅出：架构设计的艺术与挑战🤓

5 AI赛道新风向：3D重建与模型革新引领未来🚀

6 openclaw的怎么升级

7 整理了一些学习资料

8 整理了一些学习资料

9 分享一些实用的开发工具

10 分享一些实用的脚本工具

RAG实战：从Chunk大小到重排序，最近踩过的坑和优化经验

[复制链接]

magico 显示全部楼层 发表于昨天 15:01 |阅读模式

兄弟们，最近在搞一个企业内部知识库项目，用的RAG框架，踩了不少坑，来分享下最新优化心得。

先说chunk大小。之前图省事用512 token一刀切，结果召回率惨不忍睹（低于60%）。实测发现，1024-2048 token的窗口大小对长文档效果最好，配合50%重叠率能提升15%的召回。别迷信固定值，得根据文档类型动态调整。

再谈向量检索。目前主流方案是Faiss + BGE-M3，但单一检索容易漏掉语义相近的片段。推荐试试“混合召回”策略：向量检索（top 30） + BM25关键词（top 10），然后用交叉编码器重排序。我们用的Cohere rerank-v3，延迟控制在200ms内，Top-5准确率从68%飙到91%。

最后说生成环节。很多人忽略prompt模板，直接扔给LLM，结果产生幻觉。建议加上“如果检索内容与问题无关，请回复‘知识库中未找到相关信息’”。实测用Llama 3.1 70B配合这一模板，幻觉率降低了40%。

详细代码和评估结果我放GitHub了，地址在评论区自取。欢迎来喷。