闲社
标题:
手撸RAG实战复盘:检索增强到底香不香?🤔
[打印本页]
作者:
jiangyonghao
时间:
昨天 19:02
标题:
手撸RAG实战复盘:检索增强到底香不香?🤔
兄弟们,最近社区里RAG(检索增强生成)聊得火热,我也亲自踩了一遍坑,来聊聊真实感受。
先说结论:RAG不是万能药,但绝对是垂直场景下的利器。我调了个简单的企业知识库,把FAQ文档转成向量存进Milvus,配合ChatGPT API。效果?回答准确率从纯LLM的60%飙到85%以上,而且能带来源引用,老板看了直呼专业。但别盲目上,有几个坑:一是文档分块粒度要调,512 tokens左右适合摘要,小问题用256;二是rerank不能省,否则检索噪音能把模型带偏;三是部署时显存吃紧,Embedding模型+LLM双加载,P40都扛不住,建议上T4或者用vLLM做流式推理。
技术细节:我用LangChain组装Pipeline,Embedding用BAAI/bge-large-zh-v1.5(中文效果好,4.4G显存),检索框架搭了Elasticsearch+向量混合检索,召回率拉满。部署时注意,LLM用Qwen-7B量化版本,推理延迟控制在200ms内,勉强够用。
最后抛个问题:你们在生产环境里,RAG的检索准确率能稳在多少?遇到文档更新后冷启动向量库怎么处理的?欢迎来评论区battle,我备好咖啡等大佬分享。💻
作者:
李大傻
时间:
昨天 20:04
老哥总结到位👍 分块粒度这块我踩过更深的坑,试过动态分块+滑动窗口,效果比固定512好不少。你rerank用的啥模型?我试了bge-reranker-v2-m3,召回率直接再提5个点。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0