文本摘要

概述

文本摘要（Text Summarization） 是将长文本压缩为简短摘要，同时保留核心信息和主要内容的NLP任务。文本摘要能够帮助人们快速获取长文档的关键信息，在新闻阅读、文献综述、内容推荐等领域有广泛应用。

抽取式 vs 生成式摘要

文本摘要主要分为两类：抽取式摘要和生成式摘要。

抽取式摘要

从原文中抽取最重要的句子组成摘要，不生成新的词。

优点：

语法、句法正确性有保证，流畅度高
实现相对简单

缺点：

内容选择可能不准确
连贯性较差
灵活性差，只能选择已有句子，无法改写

生成式摘要

可以生成原文中没有的新词，重新组织语言生成摘要。

优点：

用词更加灵活，可以概括原文得到更流畅简洁的摘要
能够真正理解原文内容并用自己的话复述

缺点：

难度更大，可能存在多个问题

生成式摘要常见问题

OOV问题：源文档词量很大，过滤后做词表，生成时会遇到未登录词（UNK）问题
摘要的可读性：使用贪心或beam search解码，生成的句子有时候不通顺
摘要的重复性：模型容易在连续多个时间步生成重复的词，这是常见问题
长文本摘要难度大：源文本很长，目标摘要很短，需要encoder很好地归纳所有信息传递给decoder，难度大

Pointer-Generator Network 解决了什么问题

Pointer-Generator Network（指针生成网络）从两个方面改进了seq-to-seq模型在生成式文本摘要中的应用：

解决OOV问题：通过指针可以直接从源文本中复制单词，既保留了生成能力，又能解决OOV问题。PGN通过一个门控机制选择：单词是从词汇表生成，还是从输入序列复制。这可以看作是抽取式和生成式之间的平衡。
解决重复性问题：使用coverage机制跟踪已经生成的内容，不断更新注意力，当模型再次注意同一部分内容时予以惩罚，从而阻止文本不断重复。

应用场景

文本摘要技术有许多应用场景：

新闻领域：快速生成新闻摘要，让读者快速了解新闻内容
市场调查：对大量用户反馈进行快速分析，提取关键信息，了解市场需求
医学领域：从海量医学文献中快速找到相关研究成果，帮助医生做出诊疗决策
搜索引擎：对搜索结果页面生成摘要，提升用户搜索体验
学术文献：自动生成论文摘要，帮助研究者快速筛选文献

评测指标：ROUGE

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）是文本摘要最常用的评测指标，基于待评估摘要和参考摘要的n元组共现统计。

常见 ROUGE 指标

指标	计算方式	含义
ROUGE-N	n元组共现统计	衡量n元级别的匹配程度，常用ROUGE-1、ROUGE-2
ROUGE-L	最长公共子序列（LCS）	衡量最长公共子序列的匹配率
ROUGE-W	加权最长公共子序列	ROUGE-L的改进版，连续最长公共子序列权重更大

公式： $ROUGE-N = \frac{\sum_{s \in \text{参考}} \sum_{n\text{-gram} \in s} \text{Count}_{match}(n\text{-gram})}{\sum_{s \in \text{参考}} \sum_{n\text{-gram} \in s} \text{Count}(n\text{-gram})}$

BLEU vs ROUGE

区别

BLEU	ROUGE
2002年提出	2003年提出
基于精确率	基于召回率
适合评价机器翻译	适合评价文本摘要

为什么 ROUGE 适合摘要

在统计机器翻译时代，翻译结果质量差，需要同时评价准确度和流畅度
到了神经机器翻译时代，模型脑补能力强，翻译结果都通顺，但容易漏翻（低召回率）
ROUGE就是为了解决NMT的漏翻问题提出的，更关注召回率

BLEU计算： $BLEU = BP \cdot \exp\left( \sum_{n=1}^N w_n \log P_n \right)$

BP是惩罚因子，如果译文长度比参考译文短，BP < 1
Pn是n-gram精确率
wn一般设为均匀权重1/N
BLEU的1-gram精确率表示译文忠于原文的程度
BLEU的n-gram（n>1）表示流畅程度

大模型文本摘要优化

提示工程优化

明确指令："请为以下文章生成一篇简洁的摘要，不超过300字，保留核心信息："
few-shot示例：给几个输入输出示例，让模型学习格式和长度
长度控制：明确要求摘要长度，避免过长或过短

摘要策略

抽取+生成：先抽取关键句子，再让大模型改写浓缩，效果更好
分块摘要+合并：长文本分块处理，每块生成摘要，最后合并所有摘要得到最终摘要
迭代优化：先生成初稿，再让模型压缩精炼得到最终摘要

常见问题解决

重复性：使用coverage机制，或者让大模型检查并去除重复
遗漏信息：采用分块处理，保证所有部分都被处理到
长度失控：提示中明确限制长度，或者使用截断

面试常见问题

抽取式摘要和生成式摘要有什么区别？各自优缺点是什么？

抽取式从原文抽取句子组成摘要，不生成新词，优点是语法正确，实现简单；缺点是灵活性差，连贯性不好。生成式可以生成原文没有的新词，重新组织语言，优点是灵活简洁，能真正概括；缺点是难度大，可能有OOV、重复、不通顺等问题。
Pointer-Generator Network解决了生成式摘要的什么问题？

PGN解决两个主要问题：(1) OOV问题：通过指针机制可以直接从原文复制单词，不需要都在词表里，解决未登录词问题；(2) 重复问题：使用coverage机制跟踪已经覆盖的内容，对重复关注同一部分进行惩罚，减少生成重复内容。
ROUGE-N和ROUGE-L有什么区别？

ROUGE-N基于n元组共现统计，衡量n元级别的匹配；ROUGE-L基于最长公共子序列，衡量两个摘要之间最长的公共子序列长度，捕捉句子级别的顺序一致性。ROUGE-N衡量n元匹配，ROUGE-L衡量整体结构匹配。
BLEU和ROUGE的主要区别是什么？各自适用于什么场景？

BLEU主要基于精确率，衡量生成译文和参考译文的匹配，适合机器翻译评测；ROUGE主要基于召回率，衡量生成摘要覆盖参考摘要多少内容，适合文本摘要评测。
生成式摘要为什么会出现重复问题？

这和解码方法有关，贪心或beam search搜索容易陷入局部循环，模型会重复生成相同的词；另外，注意力机制可能反复注意到原文同一部分，导致重复。Pointer-generator的coverage机制就是为了解决这个问题，通过惩罚重复关注来减少重复。
长文本摘要的难点是什么？怎么解决？

难点：源文本很长，摘要很短，encoder需要把大量信息压缩到一个向量，容易丢失信息；context窗口有限，超长文本放不下。解决方法：分块处理，每个块先生成摘要，然后合并摘要；使用能处理更长上下文的模型（比如Longformer，滑动窗口注意力）；采用层次化摘要，先分层再汇总。
文本摘要有哪些应用场景？

新闻摘要（快速阅读）、文献摘要（研究者快速筛选）、搜索结果摘要（搜索引擎）、用户反馈分析（提炼关键意见）、问答系统（用摘要压缩上下文）等。

文本摘要

概述

抽取式 vs 生成式摘要

文本摘要主要分为两类：抽取式摘要和生成式摘要。

抽取式摘要

从原文中抽取最重要的句子组成摘要，不生成新的词。

优点：

语法、句法正确性有保证，流畅度高
实现相对简单

缺点：

内容选择可能不准确
连贯性较差
灵活性差，只能选择已有句子，无法改写

生成式摘要

可以生成原文中没有的新词，重新组织语言生成摘要。

优点：

用词更加灵活，可以概括原文得到更流畅简洁的摘要
能够真正理解原文内容并用自己的话复述

缺点：

难度更大，可能存在多个问题

生成式摘要常见问题

OOV问题：源文档词量很大，过滤后做词表，生成时会遇到未登录词（UNK）问题
摘要的可读性：使用贪心或beam search解码，生成的句子有时候不通顺
摘要的重复性：模型容易在连续多个时间步生成重复的词，这是常见问题
长文本摘要难度大：源文本很长，目标摘要很短，需要encoder很好地归纳所有信息传递给decoder，难度大

Pointer-Generator Network 解决了什么问题

Pointer-Generator Network（指针生成网络）从两个方面改进了seq-to-seq模型在生成式文本摘要中的应用：

解决OOV问题：通过指针可以直接从源文本中复制单词，既保留了生成能力，又能解决OOV问题。PGN通过一个门控机制选择：单词是从词汇表生成，还是从输入序列复制。这可以看作是抽取式和生成式之间的平衡。
解决重复性问题：使用coverage机制跟踪已经生成的内容，不断更新注意力，当模型再次注意同一部分内容时予以惩罚，从而阻止文本不断重复。

应用场景

文本摘要技术有许多应用场景：

新闻领域：快速生成新闻摘要，让读者快速了解新闻内容
市场调查：对大量用户反馈进行快速分析，提取关键信息，了解市场需求
医学领域：从海量医学文献中快速找到相关研究成果，帮助医生做出诊疗决策
搜索引擎：对搜索结果页面生成摘要，提升用户搜索体验
学术文献：自动生成论文摘要，帮助研究者快速筛选文献

评测指标：ROUGE

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）是文本摘要最常用的评测指标，基于待评估摘要和参考摘要的n元组共现统计。

常见 ROUGE 指标

指标	计算方式	含义
ROUGE-N	n元组共现统计	衡量n元级别的匹配程度，常用ROUGE-1、ROUGE-2
ROUGE-L	最长公共子序列（LCS）	衡量最长公共子序列的匹配率
ROUGE-W	加权最长公共子序列	ROUGE-L的改进版，连续最长公共子序列权重更大

BLEU vs ROUGE

区别

BLEU	ROUGE
2002年提出	2003年提出
基于精确率	基于召回率
适合评价机器翻译	适合评价文本摘要

为什么 ROUGE 适合摘要

在统计机器翻译时代，翻译结果质量差，需要同时评价准确度和流畅度
到了神经机器翻译时代，模型脑补能力强，翻译结果都通顺，但容易漏翻（低召回率）
ROUGE就是为了解决NMT的漏翻问题提出的，更关注召回率

BLEU计算： $BLEU = BP \cdot \exp\left( \sum_{n=1}^N w_n \log P_n \right)$

BP是惩罚因子，如果译文长度比参考译文短，BP < 1
Pn是n-gram精确率
wn一般设为均匀权重1/N
BLEU的1-gram精确率表示译文忠于原文的程度
BLEU的n-gram（n>1）表示流畅程度

大模型文本摘要优化

提示工程优化

明确指令："请为以下文章生成一篇简洁的摘要，不超过300字，保留核心信息："
few-shot示例：给几个输入输出示例，让模型学习格式和长度
长度控制：明确要求摘要长度，避免过长或过短

摘要策略

抽取+生成：先抽取关键句子，再让大模型改写浓缩，效果更好
分块摘要+合并：长文本分块处理，每块生成摘要，最后合并所有摘要得到最终摘要
迭代优化：先生成初稿，再让模型压缩精炼得到最终摘要

常见问题解决

重复性：使用coverage机制，或者让大模型检查并去除重复
遗漏信息：采用分块处理，保证所有部分都被处理到
长度失控：提示中明确限制长度，或者使用截断

面试常见问题

抽取式摘要和生成式摘要有什么区别？各自优缺点是什么？

抽取式从原文抽取句子组成摘要，不生成新词，优点是语法正确，实现简单；缺点是灵活性差，连贯性不好。生成式可以生成原文没有的新词，重新组织语言，优点是灵活简洁，能真正概括；缺点是难度大，可能有OOV、重复、不通顺等问题。
Pointer-Generator Network解决了生成式摘要的什么问题？

PGN解决两个主要问题：(1) OOV问题：通过指针机制可以直接从原文复制单词，不需要都在词表里，解决未登录词问题；(2) 重复问题：使用coverage机制跟踪已经覆盖的内容，对重复关注同一部分进行惩罚，减少生成重复内容。
ROUGE-N和ROUGE-L有什么区别？

ROUGE-N基于n元组共现统计，衡量n元级别的匹配；ROUGE-L基于最长公共子序列，衡量两个摘要之间最长的公共子序列长度，捕捉句子级别的顺序一致性。ROUGE-N衡量n元匹配，ROUGE-L衡量整体结构匹配。
BLEU和ROUGE的主要区别是什么？各自适用于什么场景？

BLEU主要基于精确率，衡量生成译文和参考译文的匹配，适合机器翻译评测；ROUGE主要基于召回率，衡量生成摘要覆盖参考摘要多少内容，适合文本摘要评测。
生成式摘要为什么会出现重复问题？

这和解码方法有关，贪心或beam search搜索容易陷入局部循环，模型会重复生成相同的词；另外，注意力机制可能反复注意到原文同一部分，导致重复。Pointer-generator的coverage机制就是为了解决这个问题，通过惩罚重复关注来减少重复。
长文本摘要的难点是什么？怎么解决？

难点：源文本很长，摘要很短，encoder需要把大量信息压缩到一个向量，容易丢失信息；context窗口有限，超长文本放不下。解决方法：分块处理，每个块先生成摘要，然后合并摘要；使用能处理更长上下文的模型（比如Longformer，滑动窗口注意力）；采用层次化摘要，先分层再汇总。
文本摘要有哪些应用场景？

新闻摘要（快速阅读）、文献摘要（研究者快速筛选）、搜索结果摘要（搜索引擎）、用户反馈分析（提炼关键意见）、问答系统（用摘要压缩上下文）等。

大模型面试

大模型面试

文本摘要

文本摘要

概述

抽取式 vs 生成式摘要

抽取式摘要

生成式摘要

生成式摘要常见问题

Pointer-Generator Network 解决了什么问题

应用场景

评测指标：ROUGE

常见 ROUGE 指标

BLEU vs ROUGE

区别

为什么 ROUGE 适合摘要

大模型文本摘要优化

提示工程优化

摘要策略

常见问题解决

面试常见问题

文本摘要

文本摘要

概述

抽取式 vs 生成式摘要

抽取式摘要

生成式摘要

生成式摘要常见问题

Pointer-Generator Network 解决了什么问题

应用场景

评测指标：ROUGE

常见 ROUGE 指标

BLEU vs ROUGE

区别

为什么 ROUGE 适合摘要

大模型文本摘要优化

提示工程优化

摘要策略

常见问题解决

面试常见问题