RAG 2.0 全栈工程实践：从朴素检索到 Agentic RAG，构建真正可用的企业知识库-迪斯科星球

RAG 2.0 全栈工程实践：从朴素检索到 Agentic RAG，构建真正可用的企业知识库

导语：RAG（检索增强生成）已从 2023 年的"实验项目"演变为 2026 年企业 AI 落地的标准基础设施。然而，绝大多数团队卡在一个问题上：Demo 效果不错，但生产环境一塌糊涂。本文系统梳理 RAG 技术的 5 代演进、生产环境的关键工程问题以及 Agentic RAG 的架构实践，让你的知识库项目真正上线可用。

一、RAG 解决的根本问题

大语言模型的三大核心局限，RAG 逐一应对：

问题	表现	RAG 解决方式
知识截止（Knowledge Cutoff）	模型不知道最新信息	实时检索外部知识库
幻觉（Hallucination）	模型编造不存在的事实	用检索到的真实文档约束生成
领域知识不足	通用模型不懂私有业务	注入企业私有知识文档

RAG 的核心架构：文档解析 → 分块 → 向量化 → 存储 → 检索 → 增强生成

二、RAG 五代技术演进

第一代（Naive RAG，2023 年前）

模式：文档切块 → 向量存储 → 语义检索 → 拼接上下文 → LLM 生成

核心问题：

Chunk 切割粗糙，语义完整性差
单一向量相似度搜索，召回率低
无法处理多跳推理（需要跨文档关联）

第二代（Advanced RAG，2023-2024）

核心改进：

Pre-Retrieval：查询改写（Query Rewriting）、HyDE（假设文档嵌入）
Retrieval：混合检索（向量 + BM25 关键词）、重排序（Reranker）
Post-Retrieval：上下文压缩、相关性过滤

第三代（Modular RAG，2024）

将 RAG 各环节模块化，可插拔替换：

检索模块：向量DB / BM25 / 知识图谱 / Web搜索 增强模块：Query扩展 / 重排序 / 上下文选择 生成模块：直接生成 / 迭代生成 / CoT推理

第四代（Graph RAG，2024-2025）

微软 GraphRAG将文档转换为知识图谱，通过图结构支持多跳推理：

Local Search：基于实体邻域的精准检索
Global Search：基于社区摘要的宏观问答
显著提升对复杂问题（“比较 A 和 B 的区别”）的回答质量

第五代（Agentic RAG，2025-2026）

RAG 从静态流水线升级为自主 Agent：

自适应检索：Agent 判断是否需要检索，检索什么
迭代检索：检索 → 分析 → 再检索 → 生成
工具调用：不仅检索文本，还能查询数据库、调用 API
多 Agent 协作：检索 Agent + 分析 Agent + 验证 Agent

三、生产环境的 7 大核心工程问题

3.1 文档解析：万恶之源

企业文档格式复杂（PDF、Word、PPT、扫描件），解析质量直接决定 RAG 上限。

常见工具选型：

场景	工具	说明
高质量 PDF	PyMuPDF / pdfplumber	数字 PDF，保留排版
扫描件/图片PDF	PaddleOCR / Tesseract	OCR 识别，质量参差
复杂布局文档	Unstructured.io	商业级文档解析，支持表格
多格式批量处理	LlamaParse（云服务）	高精度，支持表格和图表
企业级	Azure Document Intelligence	托管服务，支持发票/合同

关键踩坑：

PDF 表格是高频难点，pdfplumber对有明确边框的表格效果较好，无边框表格建议 LlamaParse
OCR 扫描件质量差时，宁可人工清洗也不要低质量数据进库
页眉页脚、目录页、封面需要过滤，否则会引入噪声

3.2 文档分块（Chunking）策略

分块策略对检索质量影响巨大，没有万能方案：

fromlangchain.text_splitterimport(RecursiveCharacterTextSplitter,MarkdownHeaderTextSplitter,SemanticChunker)# 方案1：基于字符的递归分割（通用场景）text_splitter=RecursiveCharacterTextSplitter(chunk_size=512,# 通常 256-1024，根据 LLM 上下文窗口调整chunk_overlap=64,# 重叠防止边界信息丢失separators=["\n\n","\n","。","！","？"," "])# 方案2：结构化文档按标题分割（Markdown/技术文档）headers_to_split_on=[("#","H1"),("##","H2"),("###","H3"),]markdown_splitter=MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on,strip_headers=False)# 方案3：语义分割（质量最高，速度最慢）semantic_splitter=SemanticChunker(embeddings=embed_model,breakpoint_threshold_type="percentile",breakpoint_threshold_amount=95)

Chunk 大小经验参考：

QA 检索场景：128-256 tokens（精准匹配）
摘要/总结场景：512-1024 tokens（信息量更大）
法规/合同场景：按段落/条款分割（保持语义完整）

父子 Chunk 策略（推荐生产使用）：

Small Chunk（256 tokens）→ 用于检索（精准匹配） Parent Chunk（1024 tokens）→ 用于生成（上下文充足）

3.3 向量化（Embedding）模型选型

模型	维度	中文效果	开源	适用场景
text-embedding-3-small	1536	中等	否	OpenAI 生态，英文为主
text-embedding-3-large	3072	较好	否	高精度英文场景
bge-m3	1024	优秀	是	中文最优，多语言
bge-large-zh-v1.5	1024	优秀	是	中文专项，速度快
jina-embeddings-v3	1024	好	是	多任务，代码效果好

中文场景强烈推荐bge-m3（BGE-M3）：BAAI 开源，MTEB 中文榜单 Top 3，支持最长 8192 tokens。

3.4 向量数据库选型

数据库	部署方式	适用规模	特色
Chroma	本地/简单部署	原型/小规模	零配置上手
Milvus	自部署/云托管	百万级以上	高性能，功能完善
Qdrant	自部署/云托管	中大规模	Rust 实现，低延迟
Weaviate	自部署/云托管	企业级	内置 BM25 混合搜索
pgvector	PostgreSQL 扩展	中小规模	与现有 PG 数据库集成
Pinecone	云服务	不限	托管省心，贵

生产选型建议：

初创/小团队：pgvector（降低运维复杂度）或 Qdrant
大规模企业：Milvus 或 Weaviate
快速验证：Chroma 本地 + Pinecone 生产

3.5 混合检索（Hybrid Search）

仅靠向量检索存在明显短板：对精确关键词（如人名、代码、专有名词）的匹配不如 BM25。生产环境应使用混合检索：

fromlangchain.retrieversimportEnsembleRetrieverfromlangchain_community.retrieversimportBM25Retriever# 向量检索器vector_retriever=vectorstore.as_retriever(search_type="similarity",search_kwargs={"k":10})# BM25 关键词检索器bm25_retriever=BM25Retriever.from_documents(documents)bm25_retriever.k=10# 集成检索（RRF 融合排序）ensemble_retriever=EnsembleRetriever(retrievers=[vector_retriever,bm25_retriever],weights=[0.6,0.4]# 向量权重略高，可根据场景调整)

3.6 重排序（Reranking）

初次检索召回 Top-K 后，使用 Cross-Encoder 重排序精选 Top-N：

fromsentence_transformersimportCrossEncoder reranker=CrossEncoder("BAAI/bge-reranker-v2-m3")defrerank(query:str,docs:list,top_n:int=5)->list:pairs=[(query,doc.page_content)fordocindocs]scores=reranker.predict(pairs)ranked=sorted(zip(docs,scores),key=lambdax:x[1],reverse=True)return[docfordoc,_inranked[:top_n]]

BAAI/bge-reranker-v2-m3是目前中文场景最佳开源重排序模型。

3.7 查询改写（Query Rewriting）

用户提问往往不精确，查询改写显著提升召回率：

fromlangchain.promptsimportChatPromptTemplate# 查询扩展：生成多个相似查询query_expansion_prompt=ChatPromptTemplate.from_template(""" 你是一位信息检索专家。请将以下用户问题改写为 3 个不同表述方式的搜索查询， 目的是从知识库中找到最相关的信息。每行一个查询。 原始问题：{question} 改写查询： """)# HyDE：生成假设性文档再检索hyde_prompt=ChatPromptTemplate.from_template(""" 请根据以下问题生成一段假设性的答案文档（即使你不确定答案）， 这个文档将用于从知识库中检索相关信息。 问题：{question} 假设性文档： """)

四、Agentic RAG：从流水线到自主推理

4.1 架构设计

用户问题 ↓ 问题分析 Agent（判断：需要检索？检索什么？） ↓ 是 检索执行（向量检索/图检索/API调用） ↓ 结果评估 Agent（检索结果是否足够？） ↓ 不足 迭代检索（补充检索、扩展查询） ↓ 足够 答案生成（结合检索结果生成最终答案） ↓ 来源标注 + 置信度评估

4.2 使用 LangGraph 实现 Adaptive RAG

fromlanggraph.graphimportStateGraph,ENDfromlangchain_core.messagesimportHumanMessage# 定义状态classRAGState(TypedDict):question:strdocuments:listgeneration:strweb_search_needed:bool# 节点函数defretrieve(state):docs=retriever.invoke(state["question"])return{"documents":docs}defgrade_documents(state):"""评估检索文档的相关性"""question=state["question"]documents=state["documents"]filtered_docs=[]web_search=Falsefordocindocuments:score=grader_chain.invoke({"question":question,"document":doc})ifscore.binary_score=="yes":filtered_docs.append(doc)iflen(filtered_docs)<2:web_search=Truereturn{"documents":filtered_docs,"web_search_needed":web_search}defgenerate(state):generation=rag_chain.invoke({"context":state["documents"],"question":state["question"]})return{"generation":generation}# 构建图workflow=StateGraph(RAGState)workflow.add_node("retrieve",retrieve)workflow.add_node("grade_documents",grade_documents)workflow.add_node("generate",generate)workflow.set_entry_point("retrieve")workflow.add_edge("retrieve","grade_documents")workflow.add_conditional_edges("grade_documents",lambdax:"websearch"ifx["web_search_needed"]else"generate",{"websearch":"web_search","generate":"generate"})workflow.add_edge("generate",END)app=workflow.compile()

五、常见坑点与解决方案

❌ 坑1：相关性高但答案错误

原因：模型幻觉——召回了正确文档，但生成时偏离文档内容。

解决：添加 Faithfulness Check（使用 RAGAS 框架评估答案是否基于文档）；在 Prompt 中强调"仅根据以下文档回答，不要添加文档中没有的信息"。

❌ 坑2：长文档检索效果差

原因：Chunk 太大导致向量泛化，太小导致缺少上下文。

解决：使用父子 Chunk 策略；对长文档先生成摘要再做 embedding。

❌ 坑3：追问时上下文丢失

原因：每次检索只考虑当前问题，忽略对话历史。

解决：使用对话式查询改写，将历史上下文融入当前查询：

# 结合对话历史改写查询contextualized_query=contextualize_chain.invoke({"chat_history":chat_history,"question":current_question})

❌ 坑4：中文分词导致 BM25 效果差

原因：中文无天然分隔符，直接 BM25 效果差。

解决：集成 jieba 分词或 pkuseg，在 BM25 索引和查询时都进行中文分词预处理。

六、评估体系：怎么知道 RAG 够不够好？

使用RAGAS框架进行 RAG 质量评估：

指标	含义	目标值
Faithfulness	答案是否基于检索文档	>0.85
Answer Relevancy	答案是否回应了问题	>0.80
Context Precision	检索文档是否精准	>0.75
Context Recall	关键信息是否被检索到	>0.80

七、总结

阶段	关键技术	工程重点
文档处理	解析 + 分块	质量第一，宁缺毋滥
向量化	BGE-M3（中文）	用对 Embedding 模型
检索	混合检索 + Rerank	两阶段检索是标配
生成	查询改写 + 上下文压缩	减少噪声，控制幻觉
进阶	Graph RAG / Agentic RAG	复杂推理场景

RAG 不是万能的，但在企业知识库、客服机器人、代码文档问答等场景，它仍然是 2026 年最成熟、落地成本最低的 AI 应用路径。

参考文献

Lewis, P., et al. (2020).Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS. https://arxiv.org/abs/2005.11401
Edge, D., et al. (2024).From Local to Global: A Graph RAG Approach to Query-Focused Summarization. Microsoft Research. https://arxiv.org/abs/2404.16130
RAGAS 框架文档. https://docs.ragas.io
LangChain RAG 文档. https://python.langchain.com/docs/tutorials/rag/
腾讯云. (2026).RAG（检索增强生成）技术全解析：2026年最新进展与落地实践. https://cloud.tencent.com/developer/article/2649862
RadarAI. (2026).2026 年 RAG 技术最新进展与落地实践指南. https://radarai.top/articles/2026-年-RAG-技术最新进展与落地实践指南
BAAI.BGE-M3: Multi-Functionality, Multi-Linguality, Multi-Granularity Text Embeddings. https://huggingface.co/BAAI/bge-m3
阿里云开发者社区. (2025).RAG（检索增强生成）技术和流程详解. https://developer.aliyun.com/article/1670698

企业官网建设流程全解析