39-RAG实战案例

LangChain RAG 实现

LangChain 提供了开箱即用的 RAG 实现，一个最简示例：

python

from langchain.chat_models import ChatOpenAI
from langchain.schema.runnable import RunnablePassthrough

llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)

# 构建 RAG chain
rag_chain = (
    {"context": retriever, "question": RunnablePassthrough()} 
    | rag_prompt 
    | llm
)

# 推理
rag_chain.invoke("What is Task Decomposition?")

完整的 LangChain RAG 对话实现

python

from langchain import LLMChain
from langchain.prompts import PromptTemplate
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain

# 内存保存对话历史
memory = ConversationBufferMemory(
    memory_key="chat_history", 
    return_messages=True
)

# 构建 conversational RAG chain
qa = ConversationalRetrievalChain.from_llm(
    llm=llm, 
    retriever=retriever, 
    memory=memory
)

# 多轮对话调用
result = qa({"question": "藜怎么防治虫害？"})
print(result["answer"])

特点：ConversationalRetrievalQA 会基于聊天历史压缩问题，然后再检索，支持多轮对话中的上下文理解。

基于 LangChain 的 RAG 完整流程

数据加载：使用 TextLoader / PyPDFLoader 等加载不同格式文档；
文本分割：使用 RecursiveCharacterTextSplitter 分割文档；
Embedding：选择嵌入模型（OpenAI / BGE / M3E 等）；
向量存储：存入 Chroma / FAISS / Milvus 等向量数据库；
检索：基于用户问题检索相关文档；
Prompt 拼接：将检索文档和问题填入 Prompt 模板；
生成回答：大模型基于 Prompt 生成回答。

PDF 解析挑战

PDF 是 RAG 应用中最常见的文档格式，但也是最复杂的：

为什么 PDF 解析这么难？

PDF 不是为内容结构化设计的，它主要描述怎么在页面上渲染，不保存语义结构信息：

表格、图片、文本混排，结构不清晰；
多栏排版（单栏/双栏/三栏混排）；
特殊字体、公式、扫描版 PDF 需要 OCR；
表格中单元格合并复杂，结构提取困难；
标题层级丢失，难以恢复文档结构。

PDF 解析主要方法

方法	思路	优缺点
基于规则	根据坐标、字体等规则提取内容	简单快，但不通用，复杂排版效果差
基于 AI	目标检测 + OCR 识别各个元素	准确率高，通用性强，但速度较慢

基于 AI 的 PDF 解析流程

PDF 转图片：使用 PyMuPDF（fitz）等库将 PDF 页面转为图片；
版面元素检测：使用目标检测模型识别页面中的标题、文本、表格、图片等元素；
阅读顺序排序：根据元素坐标排序，处理双栏排版：
- 区分单双栏：通过中心点横坐标极差判断，极差大说明是双栏；
- 双栏排序：找到中线分开左右栏，每栏内按纵坐标排序，再拼接；
OCR 提取文字：对每个元素区域做 OCR 提取文字；
表格识别：专门处理表格，识别单元格结构；
结构重建：按阅读顺序拼接所有元素，得到结构化文档。

常用工具

Layout-parser：精度高，模型大，速度较慢；
PaddlePaddle PP-Structure：模型较小，速度较快，中文支持好；
pdfplumber：基于规则提取，对简单表格效果好，速度快；
Unstructured：支持多种文档，快速提取标题区域。

表格识别方法

表格识别包含两个子任务：表格检测（找到表格在哪里）和表格结构识别（找到单元格和行列关系）。

传统方法

利用图像处理和规则：

腐蚀膨胀增强边界特征；
连通性分析找到候选区域；
线段检测和直线拟合找到表格线；
交点计算构建单元格；
筛选得到最终表格。

pdfplumber 表格抽取

pdfplumber 是 Python 中最常用的 PDF 表格抽取工具：

两种抽取模式：

lattice 模式（线框表格）：
- 检测水平和竖直方向的表格线；
- 根据表格线交点确定单元格边界；
- 解析表格结构，填充单元格内容。
- 适合有明显表格线的表格。
stream 模式（无线/少线表格）：
- 通过 pdfminer 获取文本；
- 根据文本对齐方式确定单元格边界；
- 适合没有明显表格线的表格。

深度学习方法

方法	特点
TableNet	基于 VGG 编码器，两个分支分别检测表格区域和列区域，端到端，F1 ~0.96
CascadeTabNet	级联掩码 R-CNN + HRNet，端到端检测表格和结构，支持少量标注数据迁移
SPLERGE	先自上而下分割行列，再自下而上合并单元格，两阶段处理
DeepDeSRT	检测+结构识别，基于 Faster R-CNN 框架

提取后的处理

表格识别出来后，一般转换为 CSV/Markdown 格式，然后作为上下文送入大模型，大模型能够理解表格内容并回答相关问题。

版面分析与文本分块

版面分析识别出文档的结构元素（标题、段落、表格、图片）后，文本分块需要利用这些结构信息：

按标题层级分块：遵循文档原有结构，同一小节内容放在一个块；
保留语义完整性：避免把一个小标题下的内容切割到多个块；
表格单独处理：表格作为一个独立块，保持结构完整；
多级标题信息：将上级标题信息附加到块中，提供更好的上下文。

多轮文档对话

多轮文档对话需要处理对话历史，核心问题是：如何基于历史对话理解当前问题，并正确检索。

解决方案：ConversationalRetrievalChain

工作流程：

利用历史聊天记录，将当前问题压缩/重写为一个独立的问题；
用重写后的问题去检索相关文档；
将检索文档 + 历史对话 + 当前问题拼接成 Prompt；
大模型生成回答。

示例：多轮 RAG 高级实现

python

# 问题生成链：基于历史压缩问题
question_generator = LLMChain(llm=llm, prompt=question_prompt)

# 回答生成链：基于检索文档回答问题
combine_docs_chain = StuffDocumentsChain(
    llm_chain=answer_llm_chain,
    document_variable_name="context"
)

# ConversationalRetrievalChain 整合
qa = ConversationalRetrievalChain(
    combine_docs_chain=combine_docs_chain,
    question_generator=question_generator,
    retriever=retriever,
    return_source_documents=True,
    return_generated_question=True,
)

一个完整的 RAG 项目调优 checklist

数据准备：
- 清理重复和无关文档；
- PDF/Word 正确解析出文本和表格；
- 去除特殊字符、错误编码、HTML 标签噪声。
分块策略：
- 选择合适的 chunk_size（通常 200-1000 token）；
- 使用递归分块而不是固定长度；
- 保留 10-20% 的块间重叠；
- 利用文档结构（标题、段落）辅助分块。
Embedding 模型：
- 选择适合领域的预训练模型；
- 如果有数据，考虑在领域数据微调；
- 难负例采样优化对比学习。
检索优化：
- 尝试混合检索（BM25 + 向量）；
- 加入重排序步骤；
- 查询重写/多查询/RAG-Fusion 提升召回；
- HYDE 处理模糊查询。
Prompt 工程：
- 明确要求大模型严格基于检索内容回答；
- 告诉大模型如果不知道就直接说不知道；
- 如果上下文太长，考虑提示压缩。
评估：
- 构建测试集；
- 使用 RAGAS 评估忠实度和相关性；
- A/B 测试不同方案。

面试常见问题

1. PDF 解析中如何处理双栏排版？

回答要点：

检测所有版面元素得到每个元素的中心点坐标；
通过横坐标极差判断是否为双栏（极差大说明是双栏）；
计算中线，分成左右两栏；
每栏内按纵坐标排序；
先左栏从上到下，再右栏从上到下，得到正确阅读顺序。

2. 为什么表格识别很难？

回答要点：

表格样式多样，有全线表、少线表、无线表，还有合并单元格；
扫描版 PDF 还需要 OCR，文字识别错误会影响结构；
不仅要检测表格位置，还要恢复行列结构和单元格内容，两步都不能错；
深度学习方法需要标注数据，标注表格成本很高。

3. LangChain 中如何实现多轮对话 RAG？

回答要点：

使用 ConversationalRetrievalChain；
第一步：问题生成器基于历史对话重写当前问题，使其成为独立问题；
第二步：用重写后的问题检索；
第三步：将检索结果、历史对话、问题拼接，生成回答。

4. 在 RAG 实战中，你会怎么调优？说说你的思路。

回答要点：

从数据开始：先保证数据质量，去重去噪；
分块：实验不同 chunk_size，观察效果；
嵌入：选择合适模型，必要时微调；
检索：尝试混合检索+重排序；
查询优化：查询重写、RAG-Fusion、HYDE；
提示：Prompt 优化，必要时压缩上下文；
评估：构建测试集，量化评估不同方案。

39-RAG实战案例

LangChain RAG 实现

LangChain 提供了开箱即用的 RAG 实现，一个最简示例：

python

from langchain.chat_models import ChatOpenAI
from langchain.schema.runnable import RunnablePassthrough

llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)

# 构建 RAG chain
rag_chain = (
    {"context": retriever, "question": RunnablePassthrough()} 
    | rag_prompt 
    | llm
)

# 推理
rag_chain.invoke("What is Task Decomposition?")

完整的 LangChain RAG 对话实现

python

from langchain import LLMChain
from langchain.prompts import PromptTemplate
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain

# 内存保存对话历史
memory = ConversationBufferMemory(
    memory_key="chat_history", 
    return_messages=True
)

# 构建 conversational RAG chain
qa = ConversationalRetrievalChain.from_llm(
    llm=llm, 
    retriever=retriever, 
    memory=memory
)

# 多轮对话调用
result = qa({"question": "藜怎么防治虫害？"})
print(result["answer"])

特点：ConversationalRetrievalQA 会基于聊天历史压缩问题，然后再检索，支持多轮对话中的上下文理解。

基于 LangChain 的 RAG 完整流程

数据加载：使用 TextLoader / PyPDFLoader 等加载不同格式文档；
文本分割：使用 RecursiveCharacterTextSplitter 分割文档；
Embedding：选择嵌入模型（OpenAI / BGE / M3E 等）；
向量存储：存入 Chroma / FAISS / Milvus 等向量数据库；
检索：基于用户问题检索相关文档；
Prompt 拼接：将检索文档和问题填入 Prompt 模板；
生成回答：大模型基于 Prompt 生成回答。

PDF 解析挑战

PDF 是 RAG 应用中最常见的文档格式，但也是最复杂的：

为什么 PDF 解析这么难？

PDF 不是为内容结构化设计的，它主要描述怎么在页面上渲染，不保存语义结构信息：

表格、图片、文本混排，结构不清晰；
多栏排版（单栏/双栏/三栏混排）；
特殊字体、公式、扫描版 PDF 需要 OCR；
表格中单元格合并复杂，结构提取困难；
标题层级丢失，难以恢复文档结构。

PDF 解析主要方法

方法	思路	优缺点
基于规则	根据坐标、字体等规则提取内容	简单快，但不通用，复杂排版效果差
基于 AI	目标检测 + OCR 识别各个元素	准确率高，通用性强，但速度较慢

基于 AI 的 PDF 解析流程

PDF 转图片：使用 PyMuPDF（fitz）等库将 PDF 页面转为图片；
版面元素检测：使用目标检测模型识别页面中的标题、文本、表格、图片等元素；
阅读顺序排序：根据元素坐标排序，处理双栏排版：
- 区分单双栏：通过中心点横坐标极差判断，极差大说明是双栏；
- 双栏排序：找到中线分开左右栏，每栏内按纵坐标排序，再拼接；
OCR 提取文字：对每个元素区域做 OCR 提取文字；
表格识别：专门处理表格，识别单元格结构；
结构重建：按阅读顺序拼接所有元素，得到结构化文档。

常用工具

Layout-parser：精度高，模型大，速度较慢；
PaddlePaddle PP-Structure：模型较小，速度较快，中文支持好；
pdfplumber：基于规则提取，对简单表格效果好，速度快；
Unstructured：支持多种文档，快速提取标题区域。

表格识别方法

表格识别包含两个子任务：表格检测（找到表格在哪里）和表格结构识别（找到单元格和行列关系）。

传统方法

利用图像处理和规则：

腐蚀膨胀增强边界特征；
连通性分析找到候选区域；
线段检测和直线拟合找到表格线；
交点计算构建单元格；
筛选得到最终表格。

pdfplumber 表格抽取

pdfplumber 是 Python 中最常用的 PDF 表格抽取工具：

两种抽取模式：

lattice 模式（线框表格）：
- 检测水平和竖直方向的表格线；
- 根据表格线交点确定单元格边界；
- 解析表格结构，填充单元格内容。
- 适合有明显表格线的表格。
stream 模式（无线/少线表格）：
- 通过 pdfminer 获取文本；
- 根据文本对齐方式确定单元格边界；
- 适合没有明显表格线的表格。

深度学习方法

方法	特点
TableNet	基于 VGG 编码器，两个分支分别检测表格区域和列区域，端到端，F1 ~0.96
CascadeTabNet	级联掩码 R-CNN + HRNet，端到端检测表格和结构，支持少量标注数据迁移
SPLERGE	先自上而下分割行列，再自下而上合并单元格，两阶段处理
DeepDeSRT	检测+结构识别，基于 Faster R-CNN 框架

提取后的处理

表格识别出来后，一般转换为 CSV/Markdown 格式，然后作为上下文送入大模型，大模型能够理解表格内容并回答相关问题。

版面分析与文本分块

版面分析识别出文档的结构元素（标题、段落、表格、图片）后，文本分块需要利用这些结构信息：

按标题层级分块：遵循文档原有结构，同一小节内容放在一个块；
保留语义完整性：避免把一个小标题下的内容切割到多个块；
表格单独处理：表格作为一个独立块，保持结构完整；
多级标题信息：将上级标题信息附加到块中，提供更好的上下文。

多轮文档对话

多轮文档对话需要处理对话历史，核心问题是：如何基于历史对话理解当前问题，并正确检索。

解决方案：ConversationalRetrievalChain

工作流程：

利用历史聊天记录，将当前问题压缩/重写为一个独立的问题；
用重写后的问题去检索相关文档；
将检索文档 + 历史对话 + 当前问题拼接成 Prompt；
大模型生成回答。

示例：多轮 RAG 高级实现

python

# 问题生成链：基于历史压缩问题
question_generator = LLMChain(llm=llm, prompt=question_prompt)

# 回答生成链：基于检索文档回答问题
combine_docs_chain = StuffDocumentsChain(
    llm_chain=answer_llm_chain,
    document_variable_name="context"
)

# ConversationalRetrievalChain 整合
qa = ConversationalRetrievalChain(
    combine_docs_chain=combine_docs_chain,
    question_generator=question_generator,
    retriever=retriever,
    return_source_documents=True,
    return_generated_question=True,
)

一个完整的 RAG 项目调优 checklist

数据准备：
- 清理重复和无关文档；
- PDF/Word 正确解析出文本和表格；
- 去除特殊字符、错误编码、HTML 标签噪声。
分块策略：
- 选择合适的 chunk_size（通常 200-1000 token）；
- 使用递归分块而不是固定长度；
- 保留 10-20% 的块间重叠；
- 利用文档结构（标题、段落）辅助分块。
Embedding 模型：
- 选择适合领域的预训练模型；
- 如果有数据，考虑在领域数据微调；
- 难负例采样优化对比学习。
检索优化：
- 尝试混合检索（BM25 + 向量）；
- 加入重排序步骤；
- 查询重写/多查询/RAG-Fusion 提升召回；
- HYDE 处理模糊查询。
Prompt 工程：
- 明确要求大模型严格基于检索内容回答；
- 告诉大模型如果不知道就直接说不知道；
- 如果上下文太长，考虑提示压缩。
评估：
- 构建测试集；
- 使用 RAGAS 评估忠实度和相关性；
- A/B 测试不同方案。

面试常见问题

1. PDF 解析中如何处理双栏排版？

回答要点：

检测所有版面元素得到每个元素的中心点坐标；
通过横坐标极差判断是否为双栏（极差大说明是双栏）；
计算中线，分成左右两栏；
每栏内按纵坐标排序；
先左栏从上到下，再右栏从上到下，得到正确阅读顺序。

2. 为什么表格识别很难？

回答要点：

表格样式多样，有全线表、少线表、无线表，还有合并单元格；
扫描版 PDF 还需要 OCR，文字识别错误会影响结构；
不仅要检测表格位置，还要恢复行列结构和单元格内容，两步都不能错；
深度学习方法需要标注数据，标注表格成本很高。

3. LangChain 中如何实现多轮对话 RAG？

回答要点：

使用 ConversationalRetrievalChain；
第一步：问题生成器基于历史对话重写当前问题，使其成为独立问题；
第二步：用重写后的问题检索；
第三步：将检索结果、历史对话、问题拼接，生成回答。

4. 在 RAG 实战中，你会怎么调优？说说你的思路。

回答要点：

从数据开始：先保证数据质量，去重去噪；
分块：实验不同 chunk_size，观察效果；
嵌入：选择合适模型，必要时微调；
检索：尝试混合检索+重排序；
查询优化：查询重写、RAG-Fusion、HYDE；
提示：Prompt 优化，必要时压缩上下文；
评估：构建测试集，量化评估不同方案。

大模型面试

大模型面试

39-RAG实战案例

39-RAG实战案例

LangChain RAG 实现

完整的 LangChain RAG 对话实现

基于 LangChain 的 RAG 完整流程

PDF 解析挑战

为什么 PDF 解析这么难？

PDF 解析主要方法

基于 AI 的 PDF 解析流程

常用工具

表格识别方法

传统方法

pdfplumber 表格抽取

深度学习方法

提取后的处理

版面分析与文本分块

多轮文档对话

解决方案：ConversationalRetrievalChain

示例：多轮 RAG 高级实现

一个完整的 RAG 项目调优 checklist

面试常见问题

1. PDF 解析中如何处理双栏排版？

2. 为什么表格识别很难？

3. LangChain 中如何实现多轮对话 RAG？

4. 在 RAG 实战中，你会怎么调优？说说你的思路。

39-RAG实战案例

39-RAG实战案例

LangChain RAG 实现

完整的 LangChain RAG 对话实现

基于 LangChain 的 RAG 完整流程

PDF 解析挑战

为什么 PDF 解析这么难？

PDF 解析主要方法

基于 AI 的 PDF 解析流程

常用工具

表格识别方法

传统方法

pdfplumber 表格抽取

深度学习方法

提取后的处理

版面分析与文本分块

多轮文档对话

解决方案：ConversationalRetrievalChain

示例：多轮 RAG 高级实现

一个完整的 RAG 项目调优 checklist

面试常见问题

1. PDF 解析中如何处理双栏排版？

2. 为什么表格识别很难？

3. LangChain 中如何实现多轮对话 RAG？

4. 在 RAG 实战中，你会怎么调优？说说你的思路。