文本摘要(Text Summarization) 是将长文本压缩为简短摘要,同时保留核心信息和主要内容的NLP任务。文本摘要能够帮助人们快速获取长文档的关键信息,在新闻阅读、文献综述、内容推荐等领域有广泛应用。
文本摘要主要分为两类:抽取式摘要和生成式摘要。
从原文中抽取最重要的句子组成摘要,不生成新的词。
优点:
缺点:
可以生成原文中没有的新词,重新组织语言生成摘要。
优点:
缺点:
OOV问题:源文档词量很大,过滤后做词表,生成时会遇到未登录词(UNK)问题
摘要的可读性:使用贪心或beam search解码,生成的句子有时候不通顺
摘要的重复性:模型容易在连续多个时间步生成重复的词,这是常见问题
长文本摘要难度大:源文本很长,目标摘要很短,需要encoder很好地归纳所有信息传递给decoder,难度大
Pointer-Generator Network(指针生成网络)从两个方面改进了seq-to-seq模型在生成式文本摘要中的应用:
解决OOV问题:通过指针可以直接从源文本中复制单词,既保留了生成能力,又能解决OOV问题。PGN通过一个门控机制选择:单词是从词汇表生成,还是从输入序列复制。这可以看作是抽取式和生成式之间的平衡。
解决重复性问题:使用coverage机制跟踪已经生成的内容,不断更新注意力,当模型再次注意同一部分内容时予以惩罚,从而阻止文本不断重复。
文本摘要技术有许多应用场景:
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是文本摘要最常用的评测指标,基于待评估摘要和参考摘要的n元组共现统计。
| 指标 | 计算方式 | 含义 |
|---|---|---|
| ROUGE-N | n元组共现统计 | 衡量n元级别的匹配程度,常用ROUGE-1、ROUGE-2 |
| ROUGE-L | 最长公共子序列(LCS) | 衡量最长公共子序列的匹配率 |
| ROUGE-W | 加权最长公共子序列 | ROUGE-L的改进版,连续最长公共子序列权重更大 |
公式:

| BLEU | ROUGE |
|---|---|
| 2002年提出 | 2003年提出 |
| 基于精确率 | 基于召回率 |
| 适合评价机器翻译 | 适合评价文本摘要 |
BLEU计算:
BP是惩罚因子,如果译文长度比参考译文短,BP < 1
Pn是n-gram精确率
wn一般设为均匀权重1/N
BLEU的1-gram精确率表示译文忠于原文的程度
BLEU的n-gram(n>1)表示流畅程度

抽取式摘要和生成式摘要有什么区别?各自优缺点是什么?
抽取式从原文抽取句子组成摘要,不生成新词,优点是语法正确,实现简单;缺点是灵活性差,连贯性不好。生成式可以生成原文没有的新词,重新组织语言,优点是灵活简洁,能真正概括;缺点是难度大,可能有OOV、重复、不通顺等问题。
Pointer-Generator Network解决了生成式摘要的什么问题?
PGN解决两个主要问题:(1) OOV问题:通过指针机制可以直接从原文复制单词,不需要都在词表里,解决未登录词问题;(2) 重复问题:使用coverage机制跟踪已经覆盖的内容,对重复关注同一部分进行惩罚,减少生成重复内容。
ROUGE-N和ROUGE-L有什么区别?
ROUGE-N基于n元组共现统计,衡量n元级别的匹配;ROUGE-L基于最长公共子序列,衡量两个摘要之间最长的公共子序列长度,捕捉句子级别的顺序一致性。ROUGE-N衡量n元匹配,ROUGE-L衡量整体结构匹配。
BLEU和ROUGE的主要区别是什么?各自适用于什么场景?
BLEU主要基于精确率,衡量生成译文和参考译文的匹配,适合机器翻译评测;ROUGE主要基于召回率,衡量生成摘要覆盖参考摘要多少内容,适合文本摘要评测。
生成式摘要为什么会出现重复问题?
这和解码方法有关,贪心或beam search搜索容易陷入局部循环,模型会重复生成相同的词;另外,注意力机制可能反复注意到原文同一部分,导致重复。Pointer-generator的coverage机制就是为了解决这个问题,通过惩罚重复关注来减少重复。
长文本摘要的难点是什么?怎么解决?
难点:源文本很长,摘要很短,encoder需要把大量信息压缩到一个向量,容易丢失信息;context窗口有限,超长文本放不下。解决方法:分块处理,每个块先生成摘要,然后合并摘要;使用能处理更长上下文的模型(比如Longformer,滑动窗口注意力);采用层次化摘要,先分层再汇总。
文本摘要有哪些应用场景?
新闻摘要(快速阅读)、文献摘要(研究者快速筛选)、搜索结果摘要(搜索引擎)、用户反馈分析(提炼关键意见)、问答系统(用摘要压缩上下文)等。