35-文本分块与嵌入策略

为什么需要对文本分块？

在 RAG 系统中，文本分块（Chunking）是至关重要的一步，直接影响最终检索和生成的质量：

信息丢失风险：如果一次性对整个文档提取嵌入向量，虽然能捕捉整体上下文，但可能会忽略掉许多针对特定主题的重要信息，导致生成的信息不够精确或者有所缺失。
分块大小限制：大多数 embedding 模型都有输入 token 长度限制，比如 GPT-4 有 32K 的上下文窗口限制，无法处理过长的文本。

因此，恰当地实施文本分块不仅能够提升文本的整体品质和可读性，还能够预防由于信息丢失或不当分块引起的问题。这就是为何在处理长篇文档时，采用文本分块而非直接处理整个文档至关重要。

文本分块策略

常见的文本分块方法可以分为以下几类：

1. 固定长度分块

最简单的分块方法，按照固定长度切割文本：

python

# 简单固定长度切分示例
chunk_size = 128
chunks = []
for i in range(0, len(text), chunk_size):
    chunk = text[i:i + chunk_size]
    chunks.append(chunk)

优点：实现简单，速度快。缺点：可能在句子中间切开，破坏语义完整性；无法处理不同语义单元的差异。

2. 基于分隔符的分块

利用标点符号、换行符等分隔符进行切割：

python

import re

def split_sentences(text):
    # 使用正则表达式匹配中文句子结束标点
    sentence_delimiters = re.compile(u'[。？！；]|\n')
    sentences = sentence_delimiters.split(text)
    sentences = [s.strip() for s in sentences if s.strip()]
    return sentences

特点：

以句子为单位进行分割，保留完整句子语义；
实现简单直接，在大多数情况下足以满足基本的句子分割需求；
不如基于语法和语义分析的方法精确，但足够好用。

3. 递归字符分块（Recursive Character Text Splitting）

这是 LangChain 中最常用的分块方法，采用分而治之的思想：

python

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,  # 设置目标块大小
    chunk_overlap=20  # 块间重叠大小
)
chunks = text_splitter.create_documents([input_text])

工作原理：

默认分隔符顺序：["\n\n", "\n", " ", ""]
拆分器首先查找两个换行符（段落分隔符）进行分割；
如果分割后的块仍然太大，就尝试使用下一个分隔符继续分割；
依此类推，直到所有块都小于目标大小。

优点：

尽可能保持语义段落的完整性；
灵活适应不同格式的文本；
是目前实践中效果较好的默认选择。

4. 语义分块

基于内容语义相似度进行分块，目标是让每个块包含完整语义单元：

常见方法：

BERT NSP 方法：利用 BERT 的下一句预测（NSP）任务判断两个段落是否应该合并，如果相似度大于阈值则合并：

python

def is_nextsent(sent, next_sent, model, tokenizer, threshold=0.5):
    with torch.no_grad():
        encoding = tokenizer(sent, next_sent, 
                           return_tensors="pt",
                           truncation=True, 
                           padding=False)
        outputs = model(**encoding)
        logits = outputs.logits
        probs = torch.softmax(logits/TEMPERATURE, dim=1)
        next_sentence_prob = probs[:, 0].item()
        return next_sentence_prob > MERGE_RATIO

语义分段工具：使用达摩院等开源的语义识别模型直接进行语义分段。

二级索引优化方案：为了同时满足细粒度知识点和跨段落粗粒度知识的需求，可以构建二级索引：

第一级索引：存储关键信息（标题、关键词提取结果）；
第二级：映射到原始文本；
检索只对关键信息做 embedding，召回后再把完整原始文本交给 LLM。

5. 特定格式分块

针对特定格式的文档，LangChain 提供了专门的分块器：

HTML 文本拆分：基于 HTML 标题标签进行拆分，保留结构信息；
Markdown 文本拆分：根据 Markdown 标题语法拆分；
Python 代码拆分：按照 Python 语法结构（类、函数）拆分；
LaTeX 文本拆分：按照 LaTeX 的章节结构拆分。

代码示例：Python 代码拆分

python

from langchain.text_splitter import PythonCodeTextSplitter

python_splitter = PythonCodeTextSplitter(chunk_size=100, chunk_overlap=0)
chunks = python_splitter.create_documents([python_text])

对于代码分块，通常将重叠设置为 0，因为重叠可能改变代码原有含义。

分块最佳实践

块大小：根据 embedding 模型的上下文窗口和下游任务调整，通常在 200-1000 token 之间；
块间重叠：保留一定重叠（通常 10%-20%）可以减少信息被切割开的概率，提高召回完整性；
按结构分块：尽可能利用文档原有结构（标题、段落）进行分块，比纯固定长度效果更好；
语义一致性：让每个块围绕一个主题，避免跨主题混合。

Embedding 模型选择

Embedding 的作用是将文本转换为向量表示，以便进行相似度计算和检索。选择合适的 embedding 模型对 RAG 效果至关重要。

常见开源 embedding 模型

M3E：中文表现优秀，由 MokaAI 开源，有不同大小版本；
BGE：智源开源，在 MTEB 榜单上表现优异，广泛应用；
UAE：统一向量化模型，优化了通用语义表示；
Voyage：专注于检索优化的新型 embedding 模型；
text-embedding-ada-002 / text-embedding-3：OpenAI 官方模型，效果好但需要 API 调用。

Embedding 优化策略

微调 embedding 模型：在特定领域数据上微调 embedding 模型，可以显著提高该领域的检索效果。
负样本挖掘：通过难负例采样优化对比学习，提高模型对语义相似度的判断能力：
- 随机采样：简单但容易采样到过于简单的负例；
- Top-K 难负例采样：选择模型区分不开的难例，但可能引入假负例；
- SimANS：对接近正例的困惑负例进行加权采样，效果更好；
- 批内负采样：利用同一个 batch 内其他样本作为负例，计算效率高；
- LLM 辅助蒸馏：让大模型帮助生成软标签，指导 embedding 训练。
动态嵌入：不同于静态嵌入，动态嵌入根据单词出现的上下文调整单词的向量表示，捕捉多义词。
查询与文档对齐：传统方法是对文档段落直接 embedding，但更好的方式是用"文档能回答什么问题"来做 embedding，这样能让查询（问题）和文档的语义空间更对齐。

向量表示优化

1. HYDE（假设性文档嵌入）

HYDE 是一种利用大模型辅助召回的技术：

工作流程：

用 LLM 根据用户 query 生成 k 个"假答案"（即使可能有错误）；
将生成的 k 个假答案和用户原始 query 都转换为向量；
对 k+1 个向量取平均得到融合向量；
用融合向量从文档库中召回。

原理：融合向量既有用户问题的信息，也有答案模式的信息，可以增强召回效果。

缺点：效果非常依赖 LLM 能力，对于已经微调好的 embedding 模型提升有限，在 zero-shot 场景下更有用。

2. 关键信息抽取

不直接对原始段落 embedding，而是先抽取关键信息（实体、关键词、核心谓词），只对关键信息 embedding，减少噪声干扰。

3. 多向量检索

将文档（用于答案合成）和检索（用于匹配查询）分离，对不同部分分别生成 embedding：

文本和表格都生成摘要，对摘要做检索；
原始文本/表格保留用于最终生成；
这样可以实现更精准的检索。

面试常见问题

1. 为什么需要文本分块？不好的分块会导致什么问题？

回答要点：

embedding 模型有长度限制，无法处理过长文本；
过长文本会稀释特定主题的信息，降低检索准确性；
分块不好会导致：知识点被切割、语义不完整、召回噪音多。

2. 常见的文本分块方法有哪些？各自优缺点？

回答要点：

固定长度：简单快，但容易破坏语义；
递归分割：LangChain 默认，尽可能保持段落完整，实用性强；
语义分块：基于语义相似度合并，理论上更好，但计算成本高；
特定格式：针对 HTML/Markdown/代码等特定格式优化。

3. 块大小（chunk_size）如何选择？太大太小有什么问题？

回答要点：

太小：碎片化严重，语义不完整，丢失上下文信息；
太大：引入过多无关噪音，降低检索精准度，占用更多上下文窗口；
选择：根据 embedding 模型窗口、文档类型、任务需求调整，通常 200-1000 token；
可以通过实验在验证集上找最优值。

4. 如何优化 embedding 质量？

回答要点：

选择效果好的预训练模型；
在领域数据上微调；
难负例采样优化对比学习；
使用 HYDE 等技术优化查询表示；
通过查询-文档对齐优化语义空间。

35-文本分块与嵌入策略

为什么需要对文本分块？

在 RAG 系统中，文本分块（Chunking）是至关重要的一步，直接影响最终检索和生成的质量：

信息丢失风险：如果一次性对整个文档提取嵌入向量，虽然能捕捉整体上下文，但可能会忽略掉许多针对特定主题的重要信息，导致生成的信息不够精确或者有所缺失。
分块大小限制：大多数 embedding 模型都有输入 token 长度限制，比如 GPT-4 有 32K 的上下文窗口限制，无法处理过长的文本。

文本分块策略

常见的文本分块方法可以分为以下几类：

1. 固定长度分块

最简单的分块方法，按照固定长度切割文本：

python

# 简单固定长度切分示例
chunk_size = 128
chunks = []
for i in range(0, len(text), chunk_size):
    chunk = text[i:i + chunk_size]
    chunks.append(chunk)

优点：实现简单，速度快。缺点：可能在句子中间切开，破坏语义完整性；无法处理不同语义单元的差异。

2. 基于分隔符的分块

利用标点符号、换行符等分隔符进行切割：

python

import re

def split_sentences(text):
    # 使用正则表达式匹配中文句子结束标点
    sentence_delimiters = re.compile(u'[。？！；]|\n')
    sentences = sentence_delimiters.split(text)
    sentences = [s.strip() for s in sentences if s.strip()]
    return sentences

特点：

以句子为单位进行分割，保留完整句子语义；
实现简单直接，在大多数情况下足以满足基本的句子分割需求；
不如基于语法和语义分析的方法精确，但足够好用。

3. 递归字符分块（Recursive Character Text Splitting）

这是 LangChain 中最常用的分块方法，采用分而治之的思想：

python

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,  # 设置目标块大小
    chunk_overlap=20  # 块间重叠大小
)
chunks = text_splitter.create_documents([input_text])

工作原理：

默认分隔符顺序：["\n\n", "\n", " ", ""]
拆分器首先查找两个换行符（段落分隔符）进行分割；
如果分割后的块仍然太大，就尝试使用下一个分隔符继续分割；
依此类推，直到所有块都小于目标大小。

优点：

尽可能保持语义段落的完整性；
灵活适应不同格式的文本；
是目前实践中效果较好的默认选择。

4. 语义分块

基于内容语义相似度进行分块，目标是让每个块包含完整语义单元：

常见方法：

BERT NSP 方法：利用 BERT 的下一句预测（NSP）任务判断两个段落是否应该合并，如果相似度大于阈值则合并：

python

def is_nextsent(sent, next_sent, model, tokenizer, threshold=0.5):
    with torch.no_grad():
        encoding = tokenizer(sent, next_sent, 
                           return_tensors="pt",
                           truncation=True, 
                           padding=False)
        outputs = model(**encoding)
        logits = outputs.logits
        probs = torch.softmax(logits/TEMPERATURE, dim=1)
        next_sentence_prob = probs[:, 0].item()
        return next_sentence_prob > MERGE_RATIO

语义分段工具：使用达摩院等开源的语义识别模型直接进行语义分段。

二级索引优化方案：为了同时满足细粒度知识点和跨段落粗粒度知识的需求，可以构建二级索引：

第一级索引：存储关键信息（标题、关键词提取结果）；
第二级：映射到原始文本；
检索只对关键信息做 embedding，召回后再把完整原始文本交给 LLM。

5. 特定格式分块

针对特定格式的文档，LangChain 提供了专门的分块器：

HTML 文本拆分：基于 HTML 标题标签进行拆分，保留结构信息；
Markdown 文本拆分：根据 Markdown 标题语法拆分；
Python 代码拆分：按照 Python 语法结构（类、函数）拆分；
LaTeX 文本拆分：按照 LaTeX 的章节结构拆分。

代码示例：Python 代码拆分

python

from langchain.text_splitter import PythonCodeTextSplitter

python_splitter = PythonCodeTextSplitter(chunk_size=100, chunk_overlap=0)
chunks = python_splitter.create_documents([python_text])

对于代码分块，通常将重叠设置为 0，因为重叠可能改变代码原有含义。

分块最佳实践

块大小：根据 embedding 模型的上下文窗口和下游任务调整，通常在 200-1000 token 之间；
块间重叠：保留一定重叠（通常 10%-20%）可以减少信息被切割开的概率，提高召回完整性；
按结构分块：尽可能利用文档原有结构（标题、段落）进行分块，比纯固定长度效果更好；
语义一致性：让每个块围绕一个主题，避免跨主题混合。

Embedding 模型选择

Embedding 的作用是将文本转换为向量表示，以便进行相似度计算和检索。选择合适的 embedding 模型对 RAG 效果至关重要。

常见开源 embedding 模型

M3E：中文表现优秀，由 MokaAI 开源，有不同大小版本；
BGE：智源开源，在 MTEB 榜单上表现优异，广泛应用；
UAE：统一向量化模型，优化了通用语义表示；
Voyage：专注于检索优化的新型 embedding 模型；
text-embedding-ada-002 / text-embedding-3：OpenAI 官方模型，效果好但需要 API 调用。

Embedding 优化策略

微调 embedding 模型：在特定领域数据上微调 embedding 模型，可以显著提高该领域的检索效果。
负样本挖掘：通过难负例采样优化对比学习，提高模型对语义相似度的判断能力：
- 随机采样：简单但容易采样到过于简单的负例；
- Top-K 难负例采样：选择模型区分不开的难例，但可能引入假负例；
- SimANS：对接近正例的困惑负例进行加权采样，效果更好；
- 批内负采样：利用同一个 batch 内其他样本作为负例，计算效率高；
- LLM 辅助蒸馏：让大模型帮助生成软标签，指导 embedding 训练。
动态嵌入：不同于静态嵌入，动态嵌入根据单词出现的上下文调整单词的向量表示，捕捉多义词。
查询与文档对齐：传统方法是对文档段落直接 embedding，但更好的方式是用"文档能回答什么问题"来做 embedding，这样能让查询（问题）和文档的语义空间更对齐。

向量表示优化

1. HYDE（假设性文档嵌入）

HYDE 是一种利用大模型辅助召回的技术：

工作流程：

用 LLM 根据用户 query 生成 k 个"假答案"（即使可能有错误）；
将生成的 k 个假答案和用户原始 query 都转换为向量；
对 k+1 个向量取平均得到融合向量；
用融合向量从文档库中召回。

原理：融合向量既有用户问题的信息，也有答案模式的信息，可以增强召回效果。

缺点：效果非常依赖 LLM 能力，对于已经微调好的 embedding 模型提升有限，在 zero-shot 场景下更有用。

2. 关键信息抽取

不直接对原始段落 embedding，而是先抽取关键信息（实体、关键词、核心谓词），只对关键信息 embedding，减少噪声干扰。

3. 多向量检索

将文档（用于答案合成）和检索（用于匹配查询）分离，对不同部分分别生成 embedding：

文本和表格都生成摘要，对摘要做检索；
原始文本/表格保留用于最终生成；
这样可以实现更精准的检索。

面试常见问题

1. 为什么需要文本分块？不好的分块会导致什么问题？

回答要点：

embedding 模型有长度限制，无法处理过长文本；
过长文本会稀释特定主题的信息，降低检索准确性；
分块不好会导致：知识点被切割、语义不完整、召回噪音多。

2. 常见的文本分块方法有哪些？各自优缺点？

回答要点：

固定长度：简单快，但容易破坏语义；
递归分割：LangChain 默认，尽可能保持段落完整，实用性强；
语义分块：基于语义相似度合并，理论上更好，但计算成本高；
特定格式：针对 HTML/Markdown/代码等特定格式优化。

3. 块大小（chunk_size）如何选择？太大太小有什么问题？

回答要点：

太小：碎片化严重，语义不完整，丢失上下文信息；
太大：引入过多无关噪音，降低检索精准度，占用更多上下文窗口；
选择：根据 embedding 模型窗口、文档类型、任务需求调整，通常 200-1000 token；
可以通过实验在验证集上找最优值。

4. 如何优化 embedding 质量？

回答要点：

选择效果好的预训练模型；
在领域数据上微调；
难负例采样优化对比学习；
使用 HYDE 等技术优化查询表示；
通过查询-文档对齐优化语义空间。

大模型面试

大模型面试

35-文本分块与嵌入策略

35-文本分块与嵌入策略

为什么需要对文本分块？

文本分块策略

1. 固定长度分块

2. 基于分隔符的分块

3. 递归字符分块（Recursive Character Text Splitting）

4. 语义分块

5. 特定格式分块

分块最佳实践

Embedding 模型选择

常见开源 embedding 模型

Embedding 优化策略

向量表示优化

1. HYDE（假设性文档嵌入）

2. 关键信息抽取

3. 多向量检索

面试常见问题

1. 为什么需要文本分块？不好的分块会导致什么问题？

2. 常见的文本分块方法有哪些？各自优缺点？

3. 块大小（chunk_size）如何选择？太大太小有什么问题？

4. 如何优化 embedding 质量？

35-文本分块与嵌入策略

35-文本分块与嵌入策略

为什么需要对文本分块？

文本分块策略

1. 固定长度分块

2. 基于分隔符的分块

3. 递归字符分块（Recursive Character Text Splitting）

4. 语义分块

5. 特定格式分块

分块最佳实践

Embedding 模型选择

常见开源 embedding 模型

Embedding 优化策略

向量表示优化

1. HYDE（假设性文档嵌入）

2. 关键信息抽取

3. 多向量检索

面试常见问题

1. 为什么需要文本分块？不好的分块会导致什么问题？

2. 常见的文本分块方法有哪些？各自优缺点？

3. 块大小（chunk_size）如何选择？太大太小有什么问题？

4. 如何优化 embedding 质量？