文本分类

概述

文本分类（Text Classification） 是NLP最基础的任务之一，目标是将文本划分到预定义的一个或多个类别中。文本分类应用非常广泛，包括情感分析、新闻分类、主题分类、意图识别、问答匹配等。

根据标签的不同，文本分类可以分为：二分类、多分类、多标签分类。

应用场景

情感分类：判断评论是正面还是负面情感
新闻分类：将新闻分到政治、体育、科技等不同类别
主题分类：判断文档的主题
意图识别：识别用户对话中的意图，用于对话系统
问答匹配：判断问题和答案是否匹配
垃圾邮件过滤：区分垃圾邮件和正常邮件

文本分类流程

文本分类的一般流程包括：文本预处理 → 特征提取 → 文本表示 → 分类输出。

文本预处理

常见预处理步骤：

分词：将文本切分成词语/子词单元
去除停用词：过滤掉停用词（"的"、"是"等无意义词）
去除特殊字符：过滤标点符号等
归一化：转小写、词干提取等

常用分词工具：jieba、HanLP、哈工大LTP、北大pkuseg等。

经典文本分类方法

fastText

分类过程：

fastText把输入转化为词向量，取平均，再经过线性分类器得到类别
输入的词向量可以预先训练好，也可以随机初始化，跟着分类任务一起训练

优点：

在保持高精度的情况下加快了训练速度和测试速度
不需要预训练好的词向量，fastText会自己训练词向量
两个重要优化：层级Softmax提升效率、采用了char-level的n-gram作为附加特征，能够捕捉字符级别的信息

fastText是一个非常轻量快速的文本分类算法，适合大规模语料的快速训练和预测。

TextCNN

核心思想：卷积神经网络的核心思想是捕捉局部特征，对于文本来说，局部特征就是由若干单词组成的滑动窗口，类似于N-gram。CNN能够自动地对N-gram特征进行组合和筛选，获得不同抽象层次的语义信息。

网络结构：

输入层：将句子表示为 n × k 的词向量矩阵，n是句子长度，k是词向量维度。通常采用双通道：一个通道预训练词向量固定不变，另一个通道词向量随训练更新。
卷积层：使用多个不同大小的卷积核（比如 filter_size=(2,3,4)）提取不同长度的n-gram特征，每个卷积核输出多个特征图。
池化层：使用1-max pooling，将每个特征图池化为一个值，这样不管句子多长，输出都是固定长度的向量。
输出层：最后接一层全连接的softmax层，输出每个类别的概率。

可调整参数

输入词向量表征：选择预训练词向量（word2vec、GloVe等）还是随机初始化
卷积核大小：合理范围在1~10，可以使用多个不同大小卷积核组合，通常效果优于单个卷积核
特征图个数：在100-600之间调参，太多会增加训练时间，需要权衡
激活函数：常用ReLU和tanh
池化策略：1-max pooling表现最佳，复杂任务可以选择k-max
正则化：dropout率一般设置在0.5以内，L2权重限制

大模型用于文本分类

提示学习方法

大模型时代，文本分类可以用提示学习（Prompt Learning）来做：

将分类问题转化为完形填空问题，构造模板
比如情感分类："这部电影[MASK]。"，模型预测[MASK]位置是"好"还是"坏"
不需要微调整个模型，只需要调整少数参数甚至直接zero-shot/few-shot

微调方法

全参数微调：用分类头替换大模型的language modeling头，整个网络一起训练，效果最好但计算量大
参数高效微调（PEFT）：比如LoRA，只微调少量附加参数，效果接近全微调但计算量小很多，现在很常用
冻结主干：冻结大模型参数，只训练最后分类层，计算量最小但效果相对差一些

优势

大模型学到了丰富的语言知识，在小样本场景下比传统方法好很多
可以处理复杂的分类任务，比如细粒度分类、意图识别等
支持zero-shot/few-shot分类，不需要大量标注数据

多标签分类

问题定义

多标签分类是指每个样本可以同时属于多个类别，而不只是一个类别。比如一篇文章可以同时属于"科技"和"AI"两个标签。

常用方法

二元相关性（Binary Relevance）：对每个标签单独训练一个二分类器，预测时每个分类器输出是否属于该标签。简单但没有考虑标签之间的相关性。
标签 powerset：将每个标签组合看成一个新类别，转化为多分类问题。但标签组合数量指数增长，不适合标签多的场景。
层级分类：构建标签树，从上到下逐层分类，利用标签层次结构。
基于Transformer的方法：直接输出标签序列，将多标签分类转化为序列生成问题。

损失函数

二元交叉熵：每个标签独立计算二分类损失，最常用
焦点损失（Focal Loss）：处理类别不平衡问题
标签平滑：正则化，提升泛化能力

评估指标

文本分类常用的评估指标包括：

准确率（Accuracy）：分类正确的样本数 / 总样本数，适合类别平衡的情况
精确率（Precision）：预测为正的样本中真实为正的比例
召回率（Recall）：真实为正的样本中被预测为正的比例
F1值：精确率和召回率的调和平均，F1 = 2 * P * R / (P + R)
ROC-AUC：ROC曲线下的面积，衡量二分类模型的排序能力
混淆矩阵：展示每个类别被分类正确/错误的情况，方便分析错误类型

处理类别不平衡

类别不平衡是文本分类中常见问题，可以通过以下方法解决：

数据层面

过采样：对少数类进行过采样（随机过采样、SMOTE等）
欠采样：对多数类进行欠采样（随机欠采样、Tomek Links等）

模型层面

集成学习：Bagging、Boosting等集成方法
重加权：给少数类样本更大的损失权重
焦点损失（Focal Loss）：降低易分类样本的权重，关注难分类的少数类样本
生成新样本：使用GAN、VAE等方法生成少数类样本

面试常见问题

文本分类的一般流程是什么？

文本分类一般流程：文本预处理（分词、去停用词等）→ 特征提取 → 文本表示 → 分类模型输出。预处理是基础，特征表示决定了模型能达到的上限，分类模型逼近这个上限。
介绍一下TextCNN的原理和结构。

TextCNN用卷积神经网络提取文本n-gram特征。结构包括：输入层（词向量矩阵）→ 卷积层（多个不同大小卷积核提取不同n-gram）→ 池化层（1-max pooling得到固定长度表示）→ 全连接softmax输出分类概率。核心思想是通过卷积自动提取重要的局部n-gram特征。
fastText的优点是什么？它有哪些关键优化？

fastText非常快，训练速度比深度学习快很多，精度也不错。不需要预训练词向量，可以自己学习。关键优化：(1) 层级Softmax，减少计算量；(2) n-gram特征，捕捉字符级信息，对拼写错误和生僻词鲁棒。适合大规模语料的快速训练。
TextCNN中卷积核大小代表什么？为什么通常用多个不同大小的卷积核？

卷积核大小表示一次看几个词，大小为k的卷积核对应k-gram特征。不同大小卷积核能提取不同长度n-gram的特征，比如大小2提取二元语法，大小3提取三元语法，组合多个卷积核能捕捉更多不同范围的特征，所以效果更好。
多分类和多标签分类有什么区别？
- 多分类：每个样本只能属于一个类别，输出是单个类别
- 多标签分类：每个样本可以同时属于多个类别，输出是多个标签集合
比如新闻分类一篇文章只能是"政治"或"体育"是多分类；一篇文章可以同时打上"AI"、"科技"两个标签是多标签分类。
文本分类任务中类别不平衡怎么处理？

数据层面：过采样少数类、欠采样多数类；模型层面：给少数类更高的损失权重、使用焦点损失Focal Loss、集成学习、生成少数类样本等方法。
大模型做文本分类和传统CNN/RNN方法相比有什么优势？

大模型在预训练阶段学到了丰富的通用语言知识，泛化能力强，特别是在小样本场景下优势明显。大模型能理解上下文语义，处理复杂的语言现象，效果通常比传统方法好。缺点是计算量大，部署成本高。
TextCNN为什么用1-max pooling而不是其他池化方法？

1-max pooling取每个特征图的最大值，只保留最重要的特征，不管输入句子多长，都能输出固定长度向量，计算简单，效果也很好。对于文本分类任务，我们只需要知道某个特征是否出现，不需要知道位置，1-max足够了。

文本分类

概述

根据标签的不同，文本分类可以分为：二分类、多分类、多标签分类。

应用场景

情感分类：判断评论是正面还是负面情感
新闻分类：将新闻分到政治、体育、科技等不同类别
主题分类：判断文档的主题
意图识别：识别用户对话中的意图，用于对话系统
问答匹配：判断问题和答案是否匹配
垃圾邮件过滤：区分垃圾邮件和正常邮件

文本分类流程

文本分类的一般流程包括：文本预处理 → 特征提取 → 文本表示 → 分类输出。

文本预处理

常见预处理步骤：

分词：将文本切分成词语/子词单元
去除停用词：过滤掉停用词（"的"、"是"等无意义词）
去除特殊字符：过滤标点符号等
归一化：转小写、词干提取等

常用分词工具：jieba、HanLP、哈工大LTP、北大pkuseg等。

经典文本分类方法

fastText

分类过程：

fastText把输入转化为词向量，取平均，再经过线性分类器得到类别
输入的词向量可以预先训练好，也可以随机初始化，跟着分类任务一起训练

优点：

在保持高精度的情况下加快了训练速度和测试速度
不需要预训练好的词向量，fastText会自己训练词向量
两个重要优化：层级Softmax提升效率、采用了char-level的n-gram作为附加特征，能够捕捉字符级别的信息

fastText是一个非常轻量快速的文本分类算法，适合大规模语料的快速训练和预测。

TextCNN

网络结构：

输入层：将句子表示为 n × k 的词向量矩阵，n是句子长度，k是词向量维度。通常采用双通道：一个通道预训练词向量固定不变，另一个通道词向量随训练更新。
卷积层：使用多个不同大小的卷积核（比如 filter_size=(2,3,4)）提取不同长度的n-gram特征，每个卷积核输出多个特征图。
池化层：使用1-max pooling，将每个特征图池化为一个值，这样不管句子多长，输出都是固定长度的向量。
输出层：最后接一层全连接的softmax层，输出每个类别的概率。

可调整参数

输入词向量表征：选择预训练词向量（word2vec、GloVe等）还是随机初始化
卷积核大小：合理范围在1~10，可以使用多个不同大小卷积核组合，通常效果优于单个卷积核
特征图个数：在100-600之间调参，太多会增加训练时间，需要权衡
激活函数：常用ReLU和tanh
池化策略：1-max pooling表现最佳，复杂任务可以选择k-max
正则化：dropout率一般设置在0.5以内，L2权重限制

大模型用于文本分类

提示学习方法

大模型时代，文本分类可以用提示学习（Prompt Learning）来做：

将分类问题转化为完形填空问题，构造模板
比如情感分类："这部电影[MASK]。"，模型预测[MASK]位置是"好"还是"坏"
不需要微调整个模型，只需要调整少数参数甚至直接zero-shot/few-shot

微调方法

全参数微调：用分类头替换大模型的language modeling头，整个网络一起训练，效果最好但计算量大
参数高效微调（PEFT）：比如LoRA，只微调少量附加参数，效果接近全微调但计算量小很多，现在很常用
冻结主干：冻结大模型参数，只训练最后分类层，计算量最小但效果相对差一些

优势

大模型学到了丰富的语言知识，在小样本场景下比传统方法好很多
可以处理复杂的分类任务，比如细粒度分类、意图识别等
支持zero-shot/few-shot分类，不需要大量标注数据

多标签分类

问题定义

多标签分类是指每个样本可以同时属于多个类别，而不只是一个类别。比如一篇文章可以同时属于"科技"和"AI"两个标签。

常用方法

二元相关性（Binary Relevance）：对每个标签单独训练一个二分类器，预测时每个分类器输出是否属于该标签。简单但没有考虑标签之间的相关性。
标签 powerset：将每个标签组合看成一个新类别，转化为多分类问题。但标签组合数量指数增长，不适合标签多的场景。
层级分类：构建标签树，从上到下逐层分类，利用标签层次结构。
基于Transformer的方法：直接输出标签序列，将多标签分类转化为序列生成问题。

损失函数

二元交叉熵：每个标签独立计算二分类损失，最常用
焦点损失（Focal Loss）：处理类别不平衡问题
标签平滑：正则化，提升泛化能力

评估指标

文本分类常用的评估指标包括：

准确率（Accuracy）：分类正确的样本数 / 总样本数，适合类别平衡的情况
精确率（Precision）：预测为正的样本中真实为正的比例
召回率（Recall）：真实为正的样本中被预测为正的比例
F1值：精确率和召回率的调和平均，F1 = 2 * P * R / (P + R)
ROC-AUC：ROC曲线下的面积，衡量二分类模型的排序能力
混淆矩阵：展示每个类别被分类正确/错误的情况，方便分析错误类型

处理类别不平衡

类别不平衡是文本分类中常见问题，可以通过以下方法解决：

数据层面

过采样：对少数类进行过采样（随机过采样、SMOTE等）
欠采样：对多数类进行欠采样（随机欠采样、Tomek Links等）

模型层面

集成学习：Bagging、Boosting等集成方法
重加权：给少数类样本更大的损失权重
焦点损失（Focal Loss）：降低易分类样本的权重，关注难分类的少数类样本
生成新样本：使用GAN、VAE等方法生成少数类样本

面试常见问题

文本分类的一般流程是什么？

文本分类一般流程：文本预处理（分词、去停用词等）→ 特征提取 → 文本表示 → 分类模型输出。预处理是基础，特征表示决定了模型能达到的上限，分类模型逼近这个上限。
介绍一下TextCNN的原理和结构。

TextCNN用卷积神经网络提取文本n-gram特征。结构包括：输入层（词向量矩阵）→ 卷积层（多个不同大小卷积核提取不同n-gram）→ 池化层（1-max pooling得到固定长度表示）→ 全连接softmax输出分类概率。核心思想是通过卷积自动提取重要的局部n-gram特征。
fastText的优点是什么？它有哪些关键优化？

fastText非常快，训练速度比深度学习快很多，精度也不错。不需要预训练词向量，可以自己学习。关键优化：(1) 层级Softmax，减少计算量；(2) n-gram特征，捕捉字符级信息，对拼写错误和生僻词鲁棒。适合大规模语料的快速训练。
TextCNN中卷积核大小代表什么？为什么通常用多个不同大小的卷积核？

卷积核大小表示一次看几个词，大小为k的卷积核对应k-gram特征。不同大小卷积核能提取不同长度n-gram的特征，比如大小2提取二元语法，大小3提取三元语法，组合多个卷积核能捕捉更多不同范围的特征，所以效果更好。
多分类和多标签分类有什么区别？
- 多分类：每个样本只能属于一个类别，输出是单个类别
- 多标签分类：每个样本可以同时属于多个类别，输出是多个标签集合
比如新闻分类一篇文章只能是"政治"或"体育"是多分类；一篇文章可以同时打上"AI"、"科技"两个标签是多标签分类。
文本分类任务中类别不平衡怎么处理？

数据层面：过采样少数类、欠采样多数类；模型层面：给少数类更高的损失权重、使用焦点损失Focal Loss、集成学习、生成少数类样本等方法。
大模型做文本分类和传统CNN/RNN方法相比有什么优势？

大模型在预训练阶段学到了丰富的通用语言知识，泛化能力强，特别是在小样本场景下优势明显。大模型能理解上下文语义，处理复杂的语言现象，效果通常比传统方法好。缺点是计算量大，部署成本高。
TextCNN为什么用1-max pooling而不是其他池化方法？

1-max pooling取每个特征图的最大值，只保留最重要的特征，不管输入句子多长，都能输出固定长度向量，计算简单，效果也很好。对于文本分类任务，我们只需要知道某个特征是否出现，不需要知道位置，1-max足够了。

大模型面试

大模型面试

文本分类

文本分类

概述

应用场景

文本分类流程

文本预处理

经典文本分类方法

fastText

TextCNN

可调整参数

大模型用于文本分类

提示学习方法

微调方法

优势

多标签分类

问题定义

常用方法

损失函数

评估指标

处理类别不平衡

数据层面

模型层面

面试常见问题

文本分类

文本分类

概述

应用场景

文本分类流程

文本预处理

经典文本分类方法

fastText

TextCNN

可调整参数

大模型用于文本分类

提示学习方法

微调方法

优势

多标签分类

问题定义

常用方法

损失函数

评估指标

处理类别不平衡

数据层面

模型层面

面试常见问题