大厂面试真题汇总

本文整理了2024年各大厂AI/LLM大模型岗位真实面试真题，按知识点分类整理，并提供详细解答。

Transformer基础

1. 请简述Self-Attention的计算方式

解答：

Self-Attention（自注意力机制）的计算分为三个步骤：

线性变换得到Q、K、V：对于输入矩阵X ∈ R^{n×d}，通过三个权重矩阵W_q, W_k, W_v ∈ R^{d×d_k}进行线性变换：

Q = X · W_q K = X · W_k V = X · W_v
计算注意力分数：通过点积计算Q和K的相似度，并除以√d_k进行缩放：

Attention Score = (Q · K^T) / √d_k

除以√d_k的原因是：当d_k较大时，点积结果的方差会变大，导致softmax函数进入梯度极小区域，缩放可以避免梯度消失问题。
softmax归一化 + 加权求和：

Attention Weights = softmax(Attention Score) Output = Attention Weights · V

最终输出每个位置都融合了整个序列的上下文信息。

2. 为什么需要多头注意力机制？

解答：

多头注意力机制（Multi-Head Attention）有两个主要原因：

增强表达能力：多头允许模型在不同的表示子空间中学习注意力信息，每个头可以关注不同的位置依赖关系，从而捕捉更丰富的特征。
多个注意力分布：不同的头可以学习到不同类型的注意力模式，例如一个头关注句法关系，另一个头关注语义关系。

具体实现是将Q、K、V在维度上切分成多个部分，每个部分并行计算注意力，最后将结果拼接起来。

3. Transformer的模型架构细节？

解答：

Transformer架构主要由编码器(Encoder)和解码器(Decoder)组成：

编码器（N层堆叠）：

每层包含两个子层：多头自注意力 + 前馈神经网络
每个子层都有残差连接和层归一化
最终输出一个序列编码，每个位置融合了全序列上下文

解码器（N层堆叠）：

三层结构：掩码多头自注意力（保证位置i只看到i之前的位置） + 编码器-解码器注意力（Q来自解码器，K V来自编码器） + 前馈神经网络
同样每个子层都有残差连接和层归一化

核心组件：

位置编码：为模型提供序列的位置信息，原始Transformer使用正弦余弦固定编码
残差连接：缓解深度网络中的梯度消失问题
层归一化：稳定训练过程，加快收敛

4. Q、K、V的作用是什么？为什么不能使用相同的权重矩阵？

解答：

Q（Query，查询）：用于与K匹配，计算注意力权重，表示当前位置"查询"哪些信息
K（Key，键）：用于与Q匹配，被查询，表示当前位置"提供"什么信息
V（Value，值）：根据注意力权重进行加权求和，得到最终输出，存储实际的信息表示

使用不同的权重矩阵生成Q、K、V可以让模型在不同的投影空间学习不同的功能，如果使用相同权重，模型会失去这种区分能力，表达能力下降。

5. 为什么点乘而不是加法？

解答：

点乘计算效率更高，可以通过矩阵乘法一次性完成所有位置的计算；而加法在效果上与点乘没有显著差异，但计算效率更低。在大规模数据和复杂模型情况下，点乘具有更好的性能。

6. Transformer中残差连接和层归一化的作用？

解答：

残差连接：通过允许梯度直接回传到较浅的层，缓解了深度神经网络中的梯度消失问题，使得深层网络更容易优化
层归一化：对每一层的激活值进行归一化，稳定训练过程，使得每一层的输入分布更加稳定，加速训练过程并提高泛化能力

二者共同提高了Transformer的训练稳定性和性能。

7. 为什么Transformer使用层归一化而不是批归一化？

解答：

主要有三个原因：

信息保留：LayerNorm是对同一个样本的所有位置特征做归一化，保留样本内部特征的大小关系，这有利于Transformer捕捉样本内部的全局依赖关系；而BatchNorm是对batch中所有样本的同一位置特征做归一化，可能会抹去样本内部特征的原有大小关系。
变长序列适应性：Transformer处理变长序列，序列长度差异大，LayerNorm不受序列长度差异影响，而BatchNorm对长度差异敏感，效果不稳定。
计算效率：LayerNorm不需要存储batch统计数据，在大规模数据集和在线学习场景下内存占用更低，计算速度更快。

8. Pre Norm vs Post Norm的区别？

解答：

类型	位置	优缺点
Post-LN	Layer Norm在残差链接之后	缺点：深层网络梯度范式逐渐增大，训练不稳定
Pre-LN	Layer Norm在残差链接之中	优点：梯度范式近似相等，深层Transformer训练更稳定；缺点：模型效果略差
Sandwich-LN	在Pre-LN基础上额外插入一个layer norm	优点：避免值爆炸；缺点：训练不稳定，可能导致崩溃

目前主流大模型（如LLaMA）多采用Pre-LN + RMSNorm的组合。

模型架构

1. 请比较BART、LLaMA、GPT、T5、PaLM、ChatGLM等主流模型的异同点

解答：

模型	架构类型	特点
BART	bi Encoder + casual Decoder	类BERT方法预训练，擅长文本生成、摘要翻译
T5	Encoder + Decoder	统一为text2text框架，所有任务都转换成文本到文本问题
GPT	Decoder-only	主打zero-shot/few-shot，自回归语言建模
GLM/ChatGLM	Prefix Decoder	混合架构：输入双向注意力，输出单向注意力，中英双语，适合对话
LLaMA	Causal Decoder	Meta开源，纯解码器，自回归，影响力最大的开源模型
PaLM	Causal Decoder	Google推出，大参数量，Pathways架构

三种主流开源模型体系：

Prefix Decoder系：输入双向注意力，输出单向注意力，代表：ChatGLM、ChatGLM2、U-PaLM
Causal Decoder系：严格从左到右单向注意力，代表：LLaMA、GPT系列
Encoder-Decoder系：完整编码器+解码器结构，代表：T5、Flan-T5、BART

2. prefix LM 和 causal LM 的区别？

解答：

核心区别在于attention mask：

prefix LM：前缀部分token可以相互看见（双向注意力），仅输出部分使用单向注意力，代表模型：ChatGLM
causal LM：严格自回归，每个位置只能看到自己及之前的位置，代表模型：LLaMA、GPT

3. LLaMA模型架构做了哪些改进？

解答：

LLaMA基于Transformer做了三处主要改进：

归一化：使用RMSNorm替代LayerNorm，并且采用pre-normalization（对每个子层做输入前置归一化），提高训练稳定性
激活函数：使用SwiGLU替代ReLU，提升性能
位置编码：从绝对位置嵌入改为旋转位置编码（RoPE），有利于长度外推

4. LLaMA 1和LLaMA 2的区别？

解答：

数据：LLaMA 2训练数据从1.4T增加到2.0T tokens
上下文长度：从2k增加到4k
架构：二者都遵循自回归Transformer架构：
- 位置编码：都使用旋转位置编码
- 归一化：都采用pre-normalization，LLaMA 1用LayerNorm，LLaMA 2用RMSNorm
- 激活函数：都采用SwiGLU

5. ChatGLM架构特点？

解答：

ChatGLM基于GLM架构：

GLM使用两种mask方式：
- [mask]：BERT形式，随机mask文本中的短span
- [gmask]：GPT形式，mask末尾的长span
对话生成使用[gmask]，ChatGLM2完全采用gmask预训练
内部结构进化：
- 位置编码：从BERT可训练位置编码 → 旋转位置编码
- 激活函数：从GeLU → GLU → ChatGLM2变为SwiGLU
- 归一化：从LayerNorm → RMSNormalization，采用DeepNorm改进
ChatGLM2新增：FlashAttention加速，Multi-Query Attention减少显存占用

6. 主流大模型体系分类总结

解答：

1. Encoder-only架构

代表：BERT、RoBERTa、ERNIE
特点：双向注意力，适合NLU任务（分类、命名实体识别、抽取）
应用：搜索排序、内容审核、情感分析

2. Decoder-only架构

代表：GPT系列、LLaMA、Qwen
特点：单向因果注意力，自回归语言建模
优势：缩放定律明显，参数量越大能力越强
应用：文本生成、对话系统、通用大模型

3. Encoder-Decoder架构

代表：T5、BART、Palm
特点：编码器处理输入，解码器生成输出
优势：对需要理解输入再生成输出的任务（翻译、摘要）效果好
应用：机器翻译、文档摘要、多模态生成

4. Prefix Decoder架构

代表：ChatGLM、GLM系列
特点：输入双向注意力，输出单向注意力，混合架构
优势：兼顾理解和生成，适合中文对话

位置编码

1. 为什么需要位置编码？

解答：

Transformer模型本身不包含循环或卷积结构，无法捕捉序列中的位置信息。不同位置的词，即使词向量相同，在句子中的含义也可能不同，因此需要额外的位置编码来提供位置信息，使模型能够理解词序。

2. 常见位置编码类型有哪些？

解答：

绝对位置编码
- 原始Transformer使用正弦余弦函数生成固定编码
- 可训练的绝对位置嵌入（BERT）
- 优点：实现简单；缺点：无法处理比训练更长的序列
相对位置编码
- 建模token之间的相对距离而不是绝对位置
- T5采用相对位置编码，更好地处理长度外推
旋转位置编码（RoPE）
- 通过旋转Q、K矩阵，将位置信息注入到注意力分数中
- 优点：天然支持长度外推，不增加参数量，保留了绝对位置信息
- 现在主流大模型（LLaMA、ChatGLM2、Qwen）都采用RoPE
ALiBi (Attention with Linear Biases)
- 不引入可训练参数，直接给注意力分数加上一个与距离成正比的偏置
- 距离越远，偏置越负，模型自然学习到就近优先关注
- 优点：训练时用短序列，推理时可以直接用更长序列，外推效果好

3. RoPE（旋转位置编码）的核心思路是什么？有什么优点？

解答：

核心思路：对于每个位置m和n，通过旋转变换将位置信息注入到Q和K中，使得点积结果天然包含位置信息：

每个位置对应的Q和K向量乘以一个旋转矩阵，旋转角度与位置成正比
两个位置的Q点积K后，结果天然包含它们相对位置的信息

优点：

支持长度外推：训练时用固定长度，推理时可以直接处理更长序列
不增加额外参数量，参数效率高
相对位置关系建模自然，在长序列上表现稳定

4. 什么是长度外推？有哪些解决方法？

解答：

长度外推：指模型在训练时使用固定长度（如4k），推理时需要处理比训练更长的序列（如16k），如何保证性能不明显下降。

解决方法：

RoPE（旋转位置编码）：本身支持一定程度的外推
ALiBi：不需要位置嵌入，通过线性偏置实现很好的外推
分块处理：将长文本分块处理，保留重叠保证连贯性
稀疏注意力：如Longformer的局部窗口注意力+全局注意力，降低计算复杂度

5. ALiBi的思路是什么？有什么优点？

解答：

核心思路：不给QK加位置嵌入，而是直接在attention分数上加上一个与两个token距离成正比的负偏置：

attention_score[i][j] = original_score - m * |i - j|

其中m是每个头学习一个斜率。距离越远，偏置越负，模型自然不会关注太远的位置。

优点：

不增加模型参数量
长度外推效果出色，训练用2k可以直接推理用16k
实现简单，不需要修改模型结构

归一化

1. 写出Layer Norm的计算公式

解答：

对于一层的输入向量x ∈ R^H：

μ = (1/H) * Σ_{i=1 to H} x_i     # 均值
σ^2 = (1/H) * Σ_{i=1 to H} (x_i - μ)^2  # 方差
y_i = γ * (x_i - μ) / √(σ^2 + ε) + β

其中γ和β是可学习的缩放和偏置参数，ε是一个小常数避免除零。

2. 写出RMS Norm的计算公式，相比Layer Norm有什么特点？

解答：

RMSNorm（Root Mean Square Layer Normalization）简化了Layer Norm：

RMS(x) = √( (1/H) * Σ_{i=1 to H} x_i^2 )
y_i = γ * x_i / RMS(x)

特点：

省去了计算均值和减去均值的步骤，只对根均方幅度进行归一化
计算更快，更稳定
保留了重新缩放的能力，但平移不变性由残差连接保证
现在主流大模型都采用RMSNorm（LLaMA等）

3. DeepNorm的思路是什么？有什么优点？

解答：

DeepNorm是对Post-Norm的改进，对残差分支做放大：

output = LN(x + α * sublayer(x))

其中α > 1是一个放大系数。

优点：

可以让超深Transformer（超过100层）训练更稳定
保持了Post-LN的良好性能，同时解决了训练不稳定问题

注意力机制优化

1. 什么是KV Cache？原理和作用是什么？

解答：

原理：Transformer是自回归生成，每一步只预测一个新token。之前已经计算过的K和V可以缓存下来，下一步不需要重新计算，避免重复计算。

作用：

大幅减少推理时的重复计算
提高生成速度，降低延迟
显存换速度，需要额外存储KV缓存

2. MQA、GQA是什么？解决什么问题？

解答：

都是为了减少KV缓存显存占用的优化方法：

MQA（Multi-Query Attention）：多个Query头共享同一组K、V，大幅减少K、V参数量和显存占用，但可能会略微降性能
GQA（Grouped Query Attention）：MQA和MHA的折中，将头分组，每组共享K、V，性能接近MHA，显存接近MQA
代表：LLaMA 2采用GQA，ChatGLM2采用MQA

3. FlashAttention核心思想是什么？

解答：

FlashAttention核心是分块 + IO感知：

将Q、K、V切分成更小的块，从HBM（高带宽内存）加载到SRAM（片上高速缓存）中计算
利用SRAM访问速度远快于HBM的特点，减少HBM读写次数
解决了Transformer计算中IO瓶颈而不是计算瓶颈问题，实际速度提升明显

高效微调

1. 常见的SFT（Supervised Fine-Tuning）方法有哪些？

解答：

全参数微调（Full Fine-Tuning）：微调所有参数，效果最好，但显存占用大
LoRA（Low-Rank Adaptation）：低秩适配，只训练额外的低秩矩阵，原模型参数固定
Adapter Tuning：在Transformer层中插入小的Adapter模块，只训练Adapter
Prefix Tuning：只优化输入前缀的可训练嵌入，模型参数固定
Prompt Tuning：只在输入前加可训练的prompt tokens，冻结模型
P-Tuning v2：Prompt Tuning的改进，在每一层都加入prompt

2. 请介绍LoRA的原理

解答：

LoRA核心思想：在原始预训练模型旁边增加一个旁路，做低秩分解来模拟参数更新：

W' = W + BA

其中：

W是原始预训练权重，固定不变
A ∈ R^{r×k}，B ∈ R^{m×r}，r远小于min(k,m)
用随机高斯分布初始化A，用零矩阵初始化B，训练开始时BA=0，不改变输出
训练时只更新A和B，W保持冻结
推理时可以将BA合并到W中，不增加推理延迟

优点：

显存占用低，训练成本小
每个任务只需要存很小的增量文件，方便分发
不影响推理速度，可以灵活切换任务

3. LoRA为什么有效？

解答：

研究发现，大模型微调时，参数更新的秩很低，大部分梯度更新落在一个低维子空间里，所以用低秩分解足够近似完整的参数更新，不会损失太多效果。

4. Instruction Tuning和Prompt Learning的区别？

解答：

Prompt Learning：目的是激发语言模型的补全能力，例如完形填空、few-shot学习，通过prompt引导模型输出
Instruction Tuning：目的是激发语言模型的理解能力，通过给出明确的指令让模型做出正确的行动，zero-shot表现更好

两者都是挖掘大模型本身具备的知识，但目标和方法侧重点不同。

RLHF

1. 请详细介绍RLHF的流程

解答：

RLHF（Reinforcement Learning from Human Feedback）分为三个阶段：

阶段1：SFT（有监督微调）

收集人类回答的数据，对预训练大模型进行有监督微调
得到一个初步符合人类指令的策略模型SFT模型

阶段2：训练奖励模型（RM，Reward Model）

让SFT模型生成多个不同回答，由人类对这些回答进行排序（偏好标注）
训练一个奖励模型，输入提示+回答，输出一个分数表示回答质量
通常可以复用SFT模型的骨架，只把最后一层改成标量输出

阶段3：PPO强化学习优化

使用SFT模型作为初始策略
使用RM给出的奖励作为优化目标
用PPO算法对策略进行优化，优化目标：最大化累计奖励，同时保持与初始策略不要偏离太远（KL散度约束）

三个阶段依次进行，最终得到对齐人类价值观的对话模型。

2. RLHF在实践中存在哪些不足？

解答：

标注成本高：人工偏好标注成本高，很难量产，数据获取困难
训练周期长：三个阶段（SFT→RM→PPO）串行，整个流程耗时久，更新迭代慢
资源要求高：PPO训练过程同时需要4个模型（SFT固定、RM固定、当前策略训练、参考策略），对计算资源要求高
模式坍塌：有时为了追求奖励模型给出高分，模型会生成过于安全但空洞的回答，多样性下降
奖励工程问题：奖励模型本身存在偏差，会导致奖励黑客（reward hacking）

3. RLHF有哪些改进方向？

解答：

降低标注成本：用AI标注替代人工标注，基于大模型自动生成偏好数据
缩短流程：探索两阶段甚至一阶段训练方法，避免PPO复杂流程
资源优化：共享模型参数，减少同时需要驻存的模型数量
结合RLHF和DPO：直接偏好优化（DPO）不需要单独训练奖励模型和PPO，直接从偏好数据优化策略

RAG相关

1. RAG技术体系的整体流程是什么？

解答：

完整RAG流程：

数据预处理 → 文档分块 → 文本向量化 → 存入向量数据库
用户查询 → 查询向量化 → 向量检索（召回） → 重排序 → 拼接prompt（query + 检索内容） → 输入LLM → 输出回答

2. 使用外挂知识库（RAG）主要解决什么问题？

解答：

克服知识遗忘：大模型训练后知识静态，RAG可以动态更新知识
提升准确性和权威性：答案基于检索到的权威文档，减少幻觉
解决小众领域知识覆盖不足：通用大模型对垂直领域知识涉猎不够，RAG引入外部专业知识库
提高可控性和可解释性：可以追溯答案来源，提高模型可信度和安全性
时效性问题：可以引入最新文档，回答时事问题不需要重新训练模型

3. 如何评价RAG项目的效果好坏？

解答：

检索环节评估指标：

MRR（Mean Reciprocal Rank）：平均倒数排名，考虑正确文档的位置
Hits Rate / Recall：前k项中包含正确信息的比例
NDCG：考虑排名顺序的归一化折损累积增益

生成环节评估：

非量化：回答完整性、正确性、相关性由人工评估
量化指标：ROUGE-L（衡量重叠度）、BLEU等，人工评估仍是金标准

4. RAG有哪些常见改进点？

解答：

Query侧改进：对用户query做纠错、改写、扩展、分拆，更好匹配知识库
索引改进：对向量数据库做层次索引，提高检索效率和精度
分块策略优化：根据文档结构智能分块，不是固定长度一刀切
多路召回：结合关键词检索和向量检索，结果融合
重排序：轻量级模型对召回结果做二次排序，提高top-k精度
大模型微调：针对当前垂直领域对LLM做微调，提升回答专业性
后处理：对最终输出做校验，过滤不合理情况
混合检索：结合稀疏检索（BM25）和稠密检索，互补优势

5. RAG检索阶段常见的向量检索算法有哪些？

解答：

暴力搜索
KD树
ANN（近似最近邻）
乘积量化
HNSWlib（层次化导航小世界，目前最常用）
FAISS（Facebook开源，支持多种索引结构）

6. 什么是LangChain？它的常用模块有哪些？

解答：

LangChain是一个大语言模型应用开发框架，简化了RAG、Agent等复杂应用的搭建过程，类似于TensorFlow对神经网络开发的作用。

常用模块：

document_loaders：文档加载
text_splitter：文档分块
embeddings：文本向量化
vectorstores：向量存储
chain.RetrievalQA：检索问答链

分布式训练

1. 大模型训练的三种并行策略是什么？通信开销如何比较？

解答：

并行方式	原理	通信开销
数据并行	每个GPU保存完整模型，处理不同数据分片，同步梯度	每次迭代需要同步梯度，通信量是`O(N)`（N为GPU数），每个参数梯度需要通信
模型并行（张量并行）	单个模型层按张量切分到多个GPU，每个GPU只存一部分参数	每层前向反向都需要通信，通信频繁
流水线并行	按层切分模型，不同GPU放不同层，以流水线方式执行	只在阶段边界通信，通信次数少，但有流水线气泡开销

实际大模型训练常用混合并行，结合多种并行策略。

2. DeepSpeed Zero 1/2/3分别是什么？显存占用分析

解答：

DeepSpeed Zero是零冗余优化器，通过切分优化器状态、梯度、参数来节省显存：

Zero stage 1：只切分优化器状态，每个GPU只保存一份Adam参数的1/N。forward和backward都需要all-gather完整权重。通信量：3N * σ，存储：12σ/N + 4σ。
Zero stage 2：切分优化器状态 + 梯度，梯度不需要all-gather，只需要scatter，w需要all-gather。通信量：2N * σ。
Zero stage 3：切分参数 + 优化器状态 + 梯度，forward时需要all-gather w，backward后scatter梯度。通信量：3N * σ，但存储节省最大，能用1.5倍通信换近120倍显存节省。

ZeRO-Offload：基于Zero2，将Adam和gradient放到CPU内存，GPU只负责计算，进一步节省GPU显存。

3. Ring All-Reduce原理是什么？相比参数服务器有什么优势？

解答：

Ring All-Reduce：将所有GPU连成一个环，每个GPU只和左右邻居通信：

ScatterReduce：每个GPU将梯度分片，依次向邻居发送和接收，最终每个GPU得到自己分片的梯度和
All-Gather：将聚合好的梯度分片广播给所有GPU，每个GPU收集完整梯度

优势：

参数服务器有中心节点瓶颈，中心节点通信量太大；Ring All-Reduce平摊通信压力到所有GPU
每个GPU通信量相同，不容易出现某个节点拖后腿
扩展性更好，GPU越多优势越明显

4. 什么是混合精度训练？为什么有效？

解答：

混合精度训练同时使用FP16和FP32：

前向反向计算使用FP16，减少内存占用和提高计算并行度
权重更新使用FP32，保证精度，避免溢出

优点：

内存占用减少一半，可以训练更大模型
通信量减半，分布式训练通信速度加快
在支持FP16的硬件上计算速度更快

需要解决的问题：

数据溢出：梯度太小可能下溢，太大溢出
舍入误差：FP16精度有限累积误差

关键技术：

权重备份（保存FP32备份用于更新）
损失放大（把损失放大，避免梯度下溢）
精度累加（累积梯度用FP32）

推理优化

1. 大模型推理过程中，可以调节哪些参数提高性能？

解答：

温度（Temperature）：控制生成随机性，温度越低越确定（接近贪婪搜索），温度越高多样性越强
Top-p 核采样（Nucleus Sampling）：只从累积概率超过p的最小候选集中采样，平衡质量和多样性，常用p=0.9
Top-k：只从概率最高的k个词中采样，固定候选集大小
重复惩罚（Repetition Penalty）：对已经出现过的token降低概率，减少重复生成
最大生成长度：限制输出长度，避免无限生成
** Beam Search**：维护top-k候选路径，最终选总分最高，比采样质量高但速度慢

2. INT8量化和FP16推理速度相比如何？

解答：

INT8将32位或16位参数量化为8位整数，内存占用减少50%-75%
相同内存空间可以存储更多数据，提高缓存命中率，增加每秒操作数
在支持INT8计算的硬件上，推理速度明显快于FP16
精度损失通常在可接受范围内，是推理部署常用优化手段

3. 常见的大模型推理加速框架有哪些？

解答：

vLLM：基于PageAttention管理KV缓存，支持连续批处理，吞吐量大幅提升
TensorRT-LLM：NVIDIA推出，针对NVIDIA GPU做了深度优化，层融合、量化优化
DeepSpeed-MII：基于Blocked KV Caching、Continuous Batching，低延迟高吞吐
OpenLLM：一站式部署、微调大模型，方便生产环境使用
Text Generation Inference：HuggingFace推出，支持动态批处理、流式输出

4. 大模型推理时，显存中有哪几部分数据？

解答：

模型参数：大模型权重本身，占比最大
输入数据：当前batch的输入tokens，需要加载到显存
计算中间结果和激活值：网络各层输出
KV缓存：自回归生成存储之前步骤计算好的K和V，避免重复计算
深度学习框架通常采用延迟释放策略，显存不会立即释放给操作系统，所以看起来一直占着。

5. 为什么大模型推理时显存涨那么多还一直占着？

解答：

模型参数本身占用大：大模型参数量大，本身就需要大量显存存储
输入和KV缓存占用：长输入需要更大的KV缓存，每生成一步都会扩容
中间激活值占用：推理过程中中间结果也需要显存
框架内存管理策略：框架通常延迟释放显存，保留以备后续使用，减少分配释放开销，所以不会立即还给操作系统

显存优化

1. 大模型训练出现OOM，现有硬件基础上有哪些优化技巧？

解答：

梯度累积：将多个小batch梯度累积，累加到一定步数再更新，相当于增大batchsize但不增加瞬时显存
混合精度训练：使用FP16替代FP32，显存减半
模型参数轻量化：剪枝、量化减少参数占用
分布式训练：用Zero等技术将参数分布到多个GPU上
减小batch size：最直接的方法，降低单卡显存需求
梯度检查点：用计算换显存，不保存中间激活，反向时重新计算
数据处理优化：数据流水线并行加载，减少同时驻留内存的数据量
CPU Offload：将部分参数、优化器状态放到CPU内存，只把当前需要的放在GPU

2. 训练和推理时，大模型大约占用多少显存？

解答：

经验公式：

训练阶段：大约占用模型参数量 × 16倍 大小的显存（FP32 Adam需要参数、梯度、一阶矩、二阶矩，加上激活等）
推理阶段：大约占用模型参数量 × 2倍大小的显存（FP16每个参数占2字节；如果INT8则是1倍）

实际还需要额外空间给KV缓存和激活，所以会更大一些。

3. 有哪些省显存的训练/微调/推理方法？

解答：

参数共享：不同位置共享参数，减少总参数量
梯度累积：分批计算梯度累积，降低单步显存
梯度裁剪：防止梯度爆炸，不直接省显存但稳定训练
量化：FP32→FP16→INT8，减少每参数比特数
剪枝：去除冗余参数，降低模型大小
知识蒸馏：用大模型蒸馏小模型，小推理显存
分块处理：长文本分块处理，降低单步序列长度
LoRA等高效微调：只训练小部分参数，原模型参数冻结，显存占用低

编程题

1. 盛最多水的容器（Leetcode 11）

题目：给定一个长度为n的整数数组height，找出其中的两条线，使得它们与x轴共同构成的容器可以容纳最多的水。返回最大水量。

解答：使用左右指针法：

python

class Solution(object):
    def maxArea(self, height):
        """
        :type height: List[int]
        :rtype: int
        """
        l, r = 0, len(height) - 1
        max_area = 0
        while l < r:
            temp_area = (r - l) * min(height[l], height[r])
            max_area = max(max_area, temp_area)
            if height[l] < height[r]:
                l += 1
            else:
                r -= 1
        return max_area

思路：初始首尾指针，每次移动指向较小值的那个指针，因为移动较大的不会增大面积。时间复杂度O(n)，空间O(1)。

2. 将有序数组转换为二叉搜索树

解答：

python

class TreeNode(object):
    def __init__(self, val=0, left=None, right=None):
        self.val = val
        self.left = left
        self.right = right

def sortedArrayToBST(nums):
    def helper(left, right):
        if left > right:
            return None
        # 总是选择中间位置左边作为根节点
        mid = (left + right) // 2
        root = TreeNode(nums[mid])
        root.left = helper(left, mid - 1)
        root.right = helper(mid + 1, right)
        return root
    return helper(0, len(nums) - 1)

3. 判断线段AB和线段CD是否有交点（C语言）

解答：

#include <stdio.h>

struct Point{
    double x;
    double y;
};

double mult(Point a, Point b, Point c){
    return (a.x - c.x)*(b.y - c.y) - (a.y - c.y)*(b.x - c.x);
}

bool solution(Point aa, Point bb, Point cc, Point dd){
    // 两个点分别在直线两侧
    if (mult(aa, bb, cc) * mult(aa, bb, dd) > 0){
        return false;
    }
    if (mult(cc, dd, aa) * mult(cc, dd, bb) > 0){
        return false;
    }
    return true;
}

int main(){
    Point aa = {0.0, 0.0};
    Point bb = {10.0, 10.0};
    Point cc = {0.0, 0.0};
    Point dd = {10.0, -10.0};
    bool ret = solution(aa, bb, cc, dd);
    printf("%d\n", ret);
    return 0;
}

思路：利用叉积判断两点是否在直线两侧，如果都满足则线段相交。

4. C++实现值交换

cpp

#include <stdio.h>
#include <algorithm>
using namespace std;

void swap(int *p1, int *p2){
    int temp;
    temp = *p1;
    *p1 = *p2;
    *p2 = temp;
}

5. 最长公共子序列（动态规划）

解答：

python

def longestCommonSubsequence(text1: str, text2: str) -> int:
    m, n = len(text1), len(text2)
    dp = [[0] * (n + 1) for _ in range(m + 1)]
    
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if text1[i-1] == text2[j-1]:
                dp[i][j] = dp[i-1][j-1] + 1
            else:
                dp[i][j] = max(dp[i-1][j], dp[i][j-1])
    return dp[m][n]

6. 反转链表（递归+迭代）

python

# 迭代版本
def reverseList(head):
    prev = None
    curr = head
    while curr:
        next_node = curr.next
        curr.next = prev
        prev = curr
        curr = next_node
    return prev

# 递归版本
def reverseListRecursive(head):
    if not head or not head.next:
        return head
    new_head = reverseListRecursive(head.next)
    head.next.next = head
    head.next = None
    return new_head

7. 第k大元素（快速选择）

python

import random

def findKthLargest(nums, k):
    def quickselect(l, r, k):
        pivot = random.randint(l, r)
        nums[pivot], nums[r] = nums[r], nums[pivot]
        i = l
        for j in range(l, r):
            if nums[j] > nums[r]:
                nums[i], nums[j] = nums[j], nums[i]
                i += 1
        nums[i], nums[r] = nums[r], nums[i]
        
        if i == k - 1:
            return nums[i]
        elif i > k - 1:
            return quickselect(l, i - 1, k)
        else:
            return quickselect(i + 1, r, k)
    
    return quickselect(0, len(nums) - 1, k)

平均时间复杂度O(n)。

大厂面试真题汇总

本文整理了2024年各大厂AI/LLM大模型岗位真实面试真题，按知识点分类整理，并提供详细解答。

Transformer基础

1. 请简述Self-Attention的计算方式

解答：

Self-Attention（自注意力机制）的计算分为三个步骤：

线性变换得到Q、K、V：对于输入矩阵X ∈ R^{n×d}，通过三个权重矩阵W_q, W_k, W_v ∈ R^{d×d_k}进行线性变换：

Q = X · W_q K = X · W_k V = X · W_v
计算注意力分数：通过点积计算Q和K的相似度，并除以√d_k进行缩放：

Attention Score = (Q · K^T) / √d_k

除以√d_k的原因是：当d_k较大时，点积结果的方差会变大，导致softmax函数进入梯度极小区域，缩放可以避免梯度消失问题。
softmax归一化 + 加权求和：

Attention Weights = softmax(Attention Score) Output = Attention Weights · V

最终输出每个位置都融合了整个序列的上下文信息。

2. 为什么需要多头注意力机制？

解答：

多头注意力机制（Multi-Head Attention）有两个主要原因：

增强表达能力：多头允许模型在不同的表示子空间中学习注意力信息，每个头可以关注不同的位置依赖关系，从而捕捉更丰富的特征。
多个注意力分布：不同的头可以学习到不同类型的注意力模式，例如一个头关注句法关系，另一个头关注语义关系。

具体实现是将Q、K、V在维度上切分成多个部分，每个部分并行计算注意力，最后将结果拼接起来。

3. Transformer的模型架构细节？

解答：

Transformer架构主要由编码器(Encoder)和解码器(Decoder)组成：

编码器（N层堆叠）：

每层包含两个子层：多头自注意力 + 前馈神经网络
每个子层都有残差连接和层归一化
最终输出一个序列编码，每个位置融合了全序列上下文

解码器（N层堆叠）：

三层结构：掩码多头自注意力（保证位置i只看到i之前的位置） + 编码器-解码器注意力（Q来自解码器，K V来自编码器） + 前馈神经网络
同样每个子层都有残差连接和层归一化

核心组件：

位置编码：为模型提供序列的位置信息，原始Transformer使用正弦余弦固定编码
残差连接：缓解深度网络中的梯度消失问题
层归一化：稳定训练过程，加快收敛

4. Q、K、V的作用是什么？为什么不能使用相同的权重矩阵？

解答：

Q（Query，查询）：用于与K匹配，计算注意力权重，表示当前位置"查询"哪些信息
K（Key，键）：用于与Q匹配，被查询，表示当前位置"提供"什么信息
V（Value，值）：根据注意力权重进行加权求和，得到最终输出，存储实际的信息表示

使用不同的权重矩阵生成Q、K、V可以让模型在不同的投影空间学习不同的功能，如果使用相同权重，模型会失去这种区分能力，表达能力下降。

5. 为什么点乘而不是加法？

解答：

6. Transformer中残差连接和层归一化的作用？

解答：

残差连接：通过允许梯度直接回传到较浅的层，缓解了深度神经网络中的梯度消失问题，使得深层网络更容易优化
层归一化：对每一层的激活值进行归一化，稳定训练过程，使得每一层的输入分布更加稳定，加速训练过程并提高泛化能力

二者共同提高了Transformer的训练稳定性和性能。

7. 为什么Transformer使用层归一化而不是批归一化？

解答：

主要有三个原因：

信息保留：LayerNorm是对同一个样本的所有位置特征做归一化，保留样本内部特征的大小关系，这有利于Transformer捕捉样本内部的全局依赖关系；而BatchNorm是对batch中所有样本的同一位置特征做归一化，可能会抹去样本内部特征的原有大小关系。
变长序列适应性：Transformer处理变长序列，序列长度差异大，LayerNorm不受序列长度差异影响，而BatchNorm对长度差异敏感，效果不稳定。
计算效率：LayerNorm不需要存储batch统计数据，在大规模数据集和在线学习场景下内存占用更低，计算速度更快。

8. Pre Norm vs Post Norm的区别？

解答：

类型	位置	优缺点
Post-LN	Layer Norm在残差链接之后	缺点：深层网络梯度范式逐渐增大，训练不稳定
Pre-LN	Layer Norm在残差链接之中	优点：梯度范式近似相等，深层Transformer训练更稳定；缺点：模型效果略差
Sandwich-LN	在Pre-LN基础上额外插入一个layer norm	优点：避免值爆炸；缺点：训练不稳定，可能导致崩溃

目前主流大模型（如LLaMA）多采用Pre-LN + RMSNorm的组合。

模型架构

1. 请比较BART、LLaMA、GPT、T5、PaLM、ChatGLM等主流模型的异同点

解答：

模型	架构类型	特点
BART	bi Encoder + casual Decoder	类BERT方法预训练，擅长文本生成、摘要翻译
T5	Encoder + Decoder	统一为text2text框架，所有任务都转换成文本到文本问题
GPT	Decoder-only	主打zero-shot/few-shot，自回归语言建模
GLM/ChatGLM	Prefix Decoder	混合架构：输入双向注意力，输出单向注意力，中英双语，适合对话
LLaMA	Causal Decoder	Meta开源，纯解码器，自回归，影响力最大的开源模型
PaLM	Causal Decoder	Google推出，大参数量，Pathways架构

三种主流开源模型体系：

Prefix Decoder系：输入双向注意力，输出单向注意力，代表：ChatGLM、ChatGLM2、U-PaLM
Causal Decoder系：严格从左到右单向注意力，代表：LLaMA、GPT系列
Encoder-Decoder系：完整编码器+解码器结构，代表：T5、Flan-T5、BART

2. prefix LM 和 causal LM 的区别？

解答：

核心区别在于attention mask：

prefix LM：前缀部分token可以相互看见（双向注意力），仅输出部分使用单向注意力，代表模型：ChatGLM
causal LM：严格自回归，每个位置只能看到自己及之前的位置，代表模型：LLaMA、GPT

3. LLaMA模型架构做了哪些改进？

解答：

LLaMA基于Transformer做了三处主要改进：

归一化：使用RMSNorm替代LayerNorm，并且采用pre-normalization（对每个子层做输入前置归一化），提高训练稳定性
激活函数：使用SwiGLU替代ReLU，提升性能
位置编码：从绝对位置嵌入改为旋转位置编码（RoPE），有利于长度外推

4. LLaMA 1和LLaMA 2的区别？

解答：

数据：LLaMA 2训练数据从1.4T增加到2.0T tokens
上下文长度：从2k增加到4k
架构：二者都遵循自回归Transformer架构：
- 位置编码：都使用旋转位置编码
- 归一化：都采用pre-normalization，LLaMA 1用LayerNorm，LLaMA 2用RMSNorm
- 激活函数：都采用SwiGLU

5. ChatGLM架构特点？

解答：

ChatGLM基于GLM架构：

GLM使用两种mask方式：
- [mask]：BERT形式，随机mask文本中的短span
- [gmask]：GPT形式，mask末尾的长span
对话生成使用[gmask]，ChatGLM2完全采用gmask预训练
内部结构进化：
- 位置编码：从BERT可训练位置编码 → 旋转位置编码
- 激活函数：从GeLU → GLU → ChatGLM2变为SwiGLU
- 归一化：从LayerNorm → RMSNormalization，采用DeepNorm改进
ChatGLM2新增：FlashAttention加速，Multi-Query Attention减少显存占用

6. 主流大模型体系分类总结

解答：

1. Encoder-only架构

代表：BERT、RoBERTa、ERNIE
特点：双向注意力，适合NLU任务（分类、命名实体识别、抽取）
应用：搜索排序、内容审核、情感分析

2. Decoder-only架构

代表：GPT系列、LLaMA、Qwen
特点：单向因果注意力，自回归语言建模
优势：缩放定律明显，参数量越大能力越强
应用：文本生成、对话系统、通用大模型

3. Encoder-Decoder架构

代表：T5、BART、Palm
特点：编码器处理输入，解码器生成输出
优势：对需要理解输入再生成输出的任务（翻译、摘要）效果好
应用：机器翻译、文档摘要、多模态生成

4. Prefix Decoder架构

代表：ChatGLM、GLM系列
特点：输入双向注意力，输出单向注意力，混合架构
优势：兼顾理解和生成，适合中文对话

位置编码

1. 为什么需要位置编码？

解答：

2. 常见位置编码类型有哪些？

解答：

绝对位置编码
- 原始Transformer使用正弦余弦函数生成固定编码
- 可训练的绝对位置嵌入（BERT）
- 优点：实现简单；缺点：无法处理比训练更长的序列
相对位置编码
- 建模token之间的相对距离而不是绝对位置
- T5采用相对位置编码，更好地处理长度外推
旋转位置编码（RoPE）
- 通过旋转Q、K矩阵，将位置信息注入到注意力分数中
- 优点：天然支持长度外推，不增加参数量，保留了绝对位置信息
- 现在主流大模型（LLaMA、ChatGLM2、Qwen）都采用RoPE
ALiBi (Attention with Linear Biases)
- 不引入可训练参数，直接给注意力分数加上一个与距离成正比的偏置
- 距离越远，偏置越负，模型自然学习到就近优先关注
- 优点：训练时用短序列，推理时可以直接用更长序列，外推效果好

3. RoPE（旋转位置编码）的核心思路是什么？有什么优点？

解答：

核心思路：对于每个位置m和n，通过旋转变换将位置信息注入到Q和K中，使得点积结果天然包含位置信息：

每个位置对应的Q和K向量乘以一个旋转矩阵，旋转角度与位置成正比
两个位置的Q点积K后，结果天然包含它们相对位置的信息

优点：

支持长度外推：训练时用固定长度，推理时可以直接处理更长序列
不增加额外参数量，参数效率高
相对位置关系建模自然，在长序列上表现稳定

4. 什么是长度外推？有哪些解决方法？

解答：

长度外推：指模型在训练时使用固定长度（如4k），推理时需要处理比训练更长的序列（如16k），如何保证性能不明显下降。

解决方法：

RoPE（旋转位置编码）：本身支持一定程度的外推
ALiBi：不需要位置嵌入，通过线性偏置实现很好的外推
分块处理：将长文本分块处理，保留重叠保证连贯性
稀疏注意力：如Longformer的局部窗口注意力+全局注意力，降低计算复杂度

5. ALiBi的思路是什么？有什么优点？

解答：

核心思路：不给QK加位置嵌入，而是直接在attention分数上加上一个与两个token距离成正比的负偏置：

attention_score[i][j] = original_score - m * |i - j|

其中m是每个头学习一个斜率。距离越远，偏置越负，模型自然不会关注太远的位置。

优点：

不增加模型参数量
长度外推效果出色，训练用2k可以直接推理用16k
实现简单，不需要修改模型结构

归一化

1. 写出Layer Norm的计算公式

解答：

对于一层的输入向量x ∈ R^H：

μ = (1/H) * Σ_{i=1 to H} x_i     # 均值
σ^2 = (1/H) * Σ_{i=1 to H} (x_i - μ)^2  # 方差
y_i = γ * (x_i - μ) / √(σ^2 + ε) + β

其中γ和β是可学习的缩放和偏置参数，ε是一个小常数避免除零。

2. 写出RMS Norm的计算公式，相比Layer Norm有什么特点？

解答：

RMSNorm（Root Mean Square Layer Normalization）简化了Layer Norm：

RMS(x) = √( (1/H) * Σ_{i=1 to H} x_i^2 )
y_i = γ * x_i / RMS(x)

特点：

省去了计算均值和减去均值的步骤，只对根均方幅度进行归一化
计算更快，更稳定
保留了重新缩放的能力，但平移不变性由残差连接保证
现在主流大模型都采用RMSNorm（LLaMA等）

3. DeepNorm的思路是什么？有什么优点？

解答：

DeepNorm是对Post-Norm的改进，对残差分支做放大：

output = LN(x + α * sublayer(x))

其中α > 1是一个放大系数。

优点：

可以让超深Transformer（超过100层）训练更稳定
保持了Post-LN的良好性能，同时解决了训练不稳定问题

注意力机制优化

1. 什么是KV Cache？原理和作用是什么？

解答：

原理：Transformer是自回归生成，每一步只预测一个新token。之前已经计算过的K和V可以缓存下来，下一步不需要重新计算，避免重复计算。

作用：

大幅减少推理时的重复计算
提高生成速度，降低延迟
显存换速度，需要额外存储KV缓存

2. MQA、GQA是什么？解决什么问题？

解答：

都是为了减少KV缓存显存占用的优化方法：

MQA（Multi-Query Attention）：多个Query头共享同一组K、V，大幅减少K、V参数量和显存占用，但可能会略微降性能
GQA（Grouped Query Attention）：MQA和MHA的折中，将头分组，每组共享K、V，性能接近MHA，显存接近MQA
代表：LLaMA 2采用GQA，ChatGLM2采用MQA

3. FlashAttention核心思想是什么？

解答：

FlashAttention核心是分块 + IO感知：

将Q、K、V切分成更小的块，从HBM（高带宽内存）加载到SRAM（片上高速缓存）中计算
利用SRAM访问速度远快于HBM的特点，减少HBM读写次数
解决了Transformer计算中IO瓶颈而不是计算瓶颈问题，实际速度提升明显

高效微调

1. 常见的SFT（Supervised Fine-Tuning）方法有哪些？

解答：

全参数微调（Full Fine-Tuning）：微调所有参数，效果最好，但显存占用大
LoRA（Low-Rank Adaptation）：低秩适配，只训练额外的低秩矩阵，原模型参数固定
Adapter Tuning：在Transformer层中插入小的Adapter模块，只训练Adapter
Prefix Tuning：只优化输入前缀的可训练嵌入，模型参数固定
Prompt Tuning：只在输入前加可训练的prompt tokens，冻结模型
P-Tuning v2：Prompt Tuning的改进，在每一层都加入prompt

2. 请介绍LoRA的原理

解答：

LoRA核心思想：在原始预训练模型旁边增加一个旁路，做低秩分解来模拟参数更新：

W' = W + BA

其中：

W是原始预训练权重，固定不变
A ∈ R^{r×k}，B ∈ R^{m×r}，r远小于min(k,m)
用随机高斯分布初始化A，用零矩阵初始化B，训练开始时BA=0，不改变输出
训练时只更新A和B，W保持冻结
推理时可以将BA合并到W中，不增加推理延迟

优点：

显存占用低，训练成本小
每个任务只需要存很小的增量文件，方便分发
不影响推理速度，可以灵活切换任务

3. LoRA为什么有效？

解答：

4. Instruction Tuning和Prompt Learning的区别？

解答：

Prompt Learning：目的是激发语言模型的补全能力，例如完形填空、few-shot学习，通过prompt引导模型输出
Instruction Tuning：目的是激发语言模型的理解能力，通过给出明确的指令让模型做出正确的行动，zero-shot表现更好

两者都是挖掘大模型本身具备的知识，但目标和方法侧重点不同。

RLHF

1. 请详细介绍RLHF的流程

解答：

RLHF（Reinforcement Learning from Human Feedback）分为三个阶段：

阶段1：SFT（有监督微调）

收集人类回答的数据，对预训练大模型进行有监督微调
得到一个初步符合人类指令的策略模型SFT模型

阶段2：训练奖励模型（RM，Reward Model）

让SFT模型生成多个不同回答，由人类对这些回答进行排序（偏好标注）
训练一个奖励模型，输入提示+回答，输出一个分数表示回答质量
通常可以复用SFT模型的骨架，只把最后一层改成标量输出

阶段3：PPO强化学习优化

使用SFT模型作为初始策略
使用RM给出的奖励作为优化目标
用PPO算法对策略进行优化，优化目标：最大化累计奖励，同时保持与初始策略不要偏离太远（KL散度约束）

三个阶段依次进行，最终得到对齐人类价值观的对话模型。

2. RLHF在实践中存在哪些不足？

解答：

标注成本高：人工偏好标注成本高，很难量产，数据获取困难
训练周期长：三个阶段（SFT→RM→PPO）串行，整个流程耗时久，更新迭代慢
资源要求高：PPO训练过程同时需要4个模型（SFT固定、RM固定、当前策略训练、参考策略），对计算资源要求高
模式坍塌：有时为了追求奖励模型给出高分，模型会生成过于安全但空洞的回答，多样性下降
奖励工程问题：奖励模型本身存在偏差，会导致奖励黑客（reward hacking）

3. RLHF有哪些改进方向？

解答：

降低标注成本：用AI标注替代人工标注，基于大模型自动生成偏好数据
缩短流程：探索两阶段甚至一阶段训练方法，避免PPO复杂流程
资源优化：共享模型参数，减少同时需要驻存的模型数量
结合RLHF和DPO：直接偏好优化（DPO）不需要单独训练奖励模型和PPO，直接从偏好数据优化策略

RAG相关

1. RAG技术体系的整体流程是什么？

解答：

完整RAG流程：

数据预处理 → 文档分块 → 文本向量化 → 存入向量数据库
用户查询 → 查询向量化 → 向量检索（召回） → 重排序 → 拼接prompt（query + 检索内容） → 输入LLM → 输出回答

2. 使用外挂知识库（RAG）主要解决什么问题？

解答：

克服知识遗忘：大模型训练后知识静态，RAG可以动态更新知识
提升准确性和权威性：答案基于检索到的权威文档，减少幻觉
解决小众领域知识覆盖不足：通用大模型对垂直领域知识涉猎不够，RAG引入外部专业知识库
提高可控性和可解释性：可以追溯答案来源，提高模型可信度和安全性
时效性问题：可以引入最新文档，回答时事问题不需要重新训练模型

3. 如何评价RAG项目的效果好坏？

解答：

检索环节评估指标：

MRR（Mean Reciprocal Rank）：平均倒数排名，考虑正确文档的位置
Hits Rate / Recall：前k项中包含正确信息的比例
NDCG：考虑排名顺序的归一化折损累积增益

生成环节评估：

非量化：回答完整性、正确性、相关性由人工评估
量化指标：ROUGE-L（衡量重叠度）、BLEU等，人工评估仍是金标准

4. RAG有哪些常见改进点？

解答：

Query侧改进：对用户query做纠错、改写、扩展、分拆，更好匹配知识库
索引改进：对向量数据库做层次索引，提高检索效率和精度
分块策略优化：根据文档结构智能分块，不是固定长度一刀切
多路召回：结合关键词检索和向量检索，结果融合
重排序：轻量级模型对召回结果做二次排序，提高top-k精度
大模型微调：针对当前垂直领域对LLM做微调，提升回答专业性
后处理：对最终输出做校验，过滤不合理情况
混合检索：结合稀疏检索（BM25）和稠密检索，互补优势

5. RAG检索阶段常见的向量检索算法有哪些？

解答：

暴力搜索
KD树
ANN（近似最近邻）
乘积量化
HNSWlib（层次化导航小世界，目前最常用）
FAISS（Facebook开源，支持多种索引结构）

6. 什么是LangChain？它的常用模块有哪些？

解答：

LangChain是一个大语言模型应用开发框架，简化了RAG、Agent等复杂应用的搭建过程，类似于TensorFlow对神经网络开发的作用。

常用模块：

document_loaders：文档加载
text_splitter：文档分块
embeddings：文本向量化
vectorstores：向量存储
chain.RetrievalQA：检索问答链

分布式训练

1. 大模型训练的三种并行策略是什么？通信开销如何比较？

解答：

并行方式	原理	通信开销
数据并行	每个GPU保存完整模型，处理不同数据分片，同步梯度	每次迭代需要同步梯度，通信量是`O(N)`（N为GPU数），每个参数梯度需要通信
模型并行（张量并行）	单个模型层按张量切分到多个GPU，每个GPU只存一部分参数	每层前向反向都需要通信，通信频繁
流水线并行	按层切分模型，不同GPU放不同层，以流水线方式执行	只在阶段边界通信，通信次数少，但有流水线气泡开销

实际大模型训练常用混合并行，结合多种并行策略。

2. DeepSpeed Zero 1/2/3分别是什么？显存占用分析

解答：

DeepSpeed Zero是零冗余优化器，通过切分优化器状态、梯度、参数来节省显存：

Zero stage 1：只切分优化器状态，每个GPU只保存一份Adam参数的1/N。forward和backward都需要all-gather完整权重。通信量：3N * σ，存储：12σ/N + 4σ。
Zero stage 2：切分优化器状态 + 梯度，梯度不需要all-gather，只需要scatter，w需要all-gather。通信量：2N * σ。
Zero stage 3：切分参数 + 优化器状态 + 梯度，forward时需要all-gather w，backward后scatter梯度。通信量：3N * σ，但存储节省最大，能用1.5倍通信换近120倍显存节省。

ZeRO-Offload：基于Zero2，将Adam和gradient放到CPU内存，GPU只负责计算，进一步节省GPU显存。

3. Ring All-Reduce原理是什么？相比参数服务器有什么优势？

解答：

Ring All-Reduce：将所有GPU连成一个环，每个GPU只和左右邻居通信：

ScatterReduce：每个GPU将梯度分片，依次向邻居发送和接收，最终每个GPU得到自己分片的梯度和
All-Gather：将聚合好的梯度分片广播给所有GPU，每个GPU收集完整梯度

优势：

参数服务器有中心节点瓶颈，中心节点通信量太大；Ring All-Reduce平摊通信压力到所有GPU
每个GPU通信量相同，不容易出现某个节点拖后腿
扩展性更好，GPU越多优势越明显

4. 什么是混合精度训练？为什么有效？

解答：

混合精度训练同时使用FP16和FP32：

前向反向计算使用FP16，减少内存占用和提高计算并行度
权重更新使用FP32，保证精度，避免溢出

优点：

内存占用减少一半，可以训练更大模型
通信量减半，分布式训练通信速度加快
在支持FP16的硬件上计算速度更快

需要解决的问题：

数据溢出：梯度太小可能下溢，太大溢出
舍入误差：FP16精度有限累积误差

关键技术：

权重备份（保存FP32备份用于更新）
损失放大（把损失放大，避免梯度下溢）
精度累加（累积梯度用FP32）

推理优化

1. 大模型推理过程中，可以调节哪些参数提高性能？

解答：

温度（Temperature）：控制生成随机性，温度越低越确定（接近贪婪搜索），温度越高多样性越强
Top-p 核采样（Nucleus Sampling）：只从累积概率超过p的最小候选集中采样，平衡质量和多样性，常用p=0.9
Top-k：只从概率最高的k个词中采样，固定候选集大小
重复惩罚（Repetition Penalty）：对已经出现过的token降低概率，减少重复生成
最大生成长度：限制输出长度，避免无限生成
** Beam Search**：维护top-k候选路径，最终选总分最高，比采样质量高但速度慢

2. INT8量化和FP16推理速度相比如何？

解答：

INT8将32位或16位参数量化为8位整数，内存占用减少50%-75%
相同内存空间可以存储更多数据，提高缓存命中率，增加每秒操作数
在支持INT8计算的硬件上，推理速度明显快于FP16
精度损失通常在可接受范围内，是推理部署常用优化手段

3. 常见的大模型推理加速框架有哪些？

解答：

vLLM：基于PageAttention管理KV缓存，支持连续批处理，吞吐量大幅提升
TensorRT-LLM：NVIDIA推出，针对NVIDIA GPU做了深度优化，层融合、量化优化
DeepSpeed-MII：基于Blocked KV Caching、Continuous Batching，低延迟高吞吐
OpenLLM：一站式部署、微调大模型，方便生产环境使用
Text Generation Inference：HuggingFace推出，支持动态批处理、流式输出

4. 大模型推理时，显存中有哪几部分数据？

解答：

模型参数：大模型权重本身，占比最大
输入数据：当前batch的输入tokens，需要加载到显存
计算中间结果和激活值：网络各层输出
KV缓存：自回归生成存储之前步骤计算好的K和V，避免重复计算
深度学习框架通常采用延迟释放策略，显存不会立即释放给操作系统，所以看起来一直占着。

5. 为什么大模型推理时显存涨那么多还一直占着？

解答：

模型参数本身占用大：大模型参数量大，本身就需要大量显存存储
输入和KV缓存占用：长输入需要更大的KV缓存，每生成一步都会扩容
中间激活值占用：推理过程中中间结果也需要显存
框架内存管理策略：框架通常延迟释放显存，保留以备后续使用，减少分配释放开销，所以不会立即还给操作系统

显存优化

1. 大模型训练出现OOM，现有硬件基础上有哪些优化技巧？

解答：

梯度累积：将多个小batch梯度累积，累加到一定步数再更新，相当于增大batchsize但不增加瞬时显存
混合精度训练：使用FP16替代FP32，显存减半
模型参数轻量化：剪枝、量化减少参数占用
分布式训练：用Zero等技术将参数分布到多个GPU上
减小batch size：最直接的方法，降低单卡显存需求
梯度检查点：用计算换显存，不保存中间激活，反向时重新计算
数据处理优化：数据流水线并行加载，减少同时驻留内存的数据量
CPU Offload：将部分参数、优化器状态放到CPU内存，只把当前需要的放在GPU

2. 训练和推理时，大模型大约占用多少显存？

解答：

经验公式：

训练阶段：大约占用模型参数量 × 16倍 大小的显存（FP32 Adam需要参数、梯度、一阶矩、二阶矩，加上激活等）
推理阶段：大约占用模型参数量 × 2倍大小的显存（FP16每个参数占2字节；如果INT8则是1倍）

实际还需要额外空间给KV缓存和激活，所以会更大一些。

3. 有哪些省显存的训练/微调/推理方法？

解答：

参数共享：不同位置共享参数，减少总参数量
梯度累积：分批计算梯度累积，降低单步显存
梯度裁剪：防止梯度爆炸，不直接省显存但稳定训练
量化：FP32→FP16→INT8，减少每参数比特数
剪枝：去除冗余参数，降低模型大小
知识蒸馏：用大模型蒸馏小模型，小推理显存
分块处理：长文本分块处理，降低单步序列长度
LoRA等高效微调：只训练小部分参数，原模型参数冻结，显存占用低

编程题

1. 盛最多水的容器（Leetcode 11）

题目：给定一个长度为n的整数数组height，找出其中的两条线，使得它们与x轴共同构成的容器可以容纳最多的水。返回最大水量。

解答：使用左右指针法：

python

class Solution(object):
    def maxArea(self, height):
        """
        :type height: List[int]
        :rtype: int
        """
        l, r = 0, len(height) - 1
        max_area = 0
        while l < r:
            temp_area = (r - l) * min(height[l], height[r])
            max_area = max(max_area, temp_area)
            if height[l] < height[r]:
                l += 1
            else:
                r -= 1
        return max_area

思路：初始首尾指针，每次移动指向较小值的那个指针，因为移动较大的不会增大面积。时间复杂度O(n)，空间O(1)。

2. 将有序数组转换为二叉搜索树

解答：

python

class TreeNode(object):
    def __init__(self, val=0, left=None, right=None):
        self.val = val
        self.left = left
        self.right = right

def sortedArrayToBST(nums):
    def helper(left, right):
        if left > right:
            return None
        # 总是选择中间位置左边作为根节点
        mid = (left + right) // 2
        root = TreeNode(nums[mid])
        root.left = helper(left, mid - 1)
        root.right = helper(mid + 1, right)
        return root
    return helper(0, len(nums) - 1)

3. 判断线段AB和线段CD是否有交点（C语言）

解答：

#include <stdio.h>

struct Point{
    double x;
    double y;
};

double mult(Point a, Point b, Point c){
    return (a.x - c.x)*(b.y - c.y) - (a.y - c.y)*(b.x - c.x);
}

bool solution(Point aa, Point bb, Point cc, Point dd){
    // 两个点分别在直线两侧
    if (mult(aa, bb, cc) * mult(aa, bb, dd) > 0){
        return false;
    }
    if (mult(cc, dd, aa) * mult(cc, dd, bb) > 0){
        return false;
    }
    return true;
}

int main(){
    Point aa = {0.0, 0.0};
    Point bb = {10.0, 10.0};
    Point cc = {0.0, 0.0};
    Point dd = {10.0, -10.0};
    bool ret = solution(aa, bb, cc, dd);
    printf("%d\n", ret);
    return 0;
}

思路：利用叉积判断两点是否在直线两侧，如果都满足则线段相交。

4. C++实现值交换

cpp

#include <stdio.h>
#include <algorithm>
using namespace std;

void swap(int *p1, int *p2){
    int temp;
    temp = *p1;
    *p1 = *p2;
    *p2 = temp;
}

5. 最长公共子序列（动态规划）

解答：

python

def longestCommonSubsequence(text1: str, text2: str) -> int:
    m, n = len(text1), len(text2)
    dp = [[0] * (n + 1) for _ in range(m + 1)]
    
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if text1[i-1] == text2[j-1]:
                dp[i][j] = dp[i-1][j-1] + 1
            else:
                dp[i][j] = max(dp[i-1][j], dp[i][j-1])
    return dp[m][n]

6. 反转链表（递归+迭代）

python

# 迭代版本
def reverseList(head):
    prev = None
    curr = head
    while curr:
        next_node = curr.next
        curr.next = prev
        prev = curr
        curr = next_node
    return prev

# 递归版本
def reverseListRecursive(head):
    if not head or not head.next:
        return head
    new_head = reverseListRecursive(head.next)
    head.next.next = head
    head.next = None
    return new_head

7. 第k大元素（快速选择）

python

import random

def findKthLargest(nums, k):
    def quickselect(l, r, k):
        pivot = random.randint(l, r)
        nums[pivot], nums[r] = nums[r], nums[pivot]
        i = l
        for j in range(l, r):
            if nums[j] > nums[r]:
                nums[i], nums[j] = nums[j], nums[i]
                i += 1
        nums[i], nums[r] = nums[r], nums[i]
        
        if i == k - 1:
            return nums[i]
        elif i > k - 1:
            return quickselect(l, i - 1, k)
        else:
            return quickselect(i + 1, r, k)
    
    return quickselect(0, len(nums) - 1, k)

平均时间复杂度O(n)。

大模型面试

大模型面试

大厂面试真题汇总

大厂面试真题汇总

目录

Transformer基础

1. 请简述Self-Attention的计算方式

2. 为什么需要多头注意力机制？

3. Transformer的模型架构细节？

4. Q、K、V的作用是什么？为什么不能使用相同的权重矩阵？

5. 为什么点乘而不是加法？

6. Transformer中残差连接和层归一化的作用？

7. 为什么Transformer使用层归一化而不是批归一化？

8. Pre Norm vs Post Norm的区别？

模型架构

1. 请比较BART、LLaMA、GPT、T5、PaLM、ChatGLM等主流模型的异同点

2. prefix LM 和 causal LM 的区别？

3. LLaMA模型架构做了哪些改进？

4. LLaMA 1和LLaMA 2的区别？

5. ChatGLM架构特点？

6. 主流大模型体系分类总结

位置编码

1. 为什么需要位置编码？

2. 常见位置编码类型有哪些？

3. RoPE（旋转位置编码）的核心思路是什么？有什么优点？

4. 什么是长度外推？有哪些解决方法？

5. ALiBi的思路是什么？有什么优点？

归一化

1. 写出Layer Norm的计算公式

2. 写出RMS Norm的计算公式，相比Layer Norm有什么特点？

3. DeepNorm的思路是什么？有什么优点？

注意力机制优化

1. 什么是KV Cache？原理和作用是什么？

2. MQA、GQA是什么？解决什么问题？

3. FlashAttention核心思想是什么？

高效微调

1. 常见的SFT（Supervised Fine-Tuning）方法有哪些？

2. 请介绍LoRA的原理

3. LoRA为什么有效？

4. Instruction Tuning和Prompt Learning的区别？

RLHF

1. 请详细介绍RLHF的流程

2. RLHF在实践中存在哪些不足？

3. RLHF有哪些改进方向？

RAG相关

1. RAG技术体系的整体流程是什么？

2. 使用外挂知识库（RAG）主要解决什么问题？

3. 如何评价RAG项目的效果好坏？

4. RAG有哪些常见改进点？

5. RAG检索阶段常见的向量检索算法有哪些？

6. 什么是LangChain？它的常用模块有哪些？

分布式训练

1. 大模型训练的三种并行策略是什么？通信开销如何比较？

2. DeepSpeed Zero 1/2/3分别是什么？显存占用分析

3. Ring All-Reduce原理是什么？相比参数服务器有什么优势？

4. 什么是混合精度训练？为什么有效？

推理优化

1. 大模型推理过程中，可以调节哪些参数提高性能？

2. INT8量化和FP16推理速度相比如何？

3. 常见的大模型推理加速框架有哪些？

4. 大模型推理时，显存中有哪几部分数据？

5. 为什么大模型推理时显存涨那么多还一直占着？

显存优化

1. 大模型训练出现OOM，现有硬件基础上有哪些优化技巧？

2. 训练和推理时，大模型大约占用多少显存？

3. 有哪些省显存的训练/微调/推理方法？

编程题

1. 盛最多水的容器（Leetcode 11）

2. 将有序数组转换为二叉搜索树

3. 判断线段AB和线段CD是否有交点（C语言）

4. C++实现值交换

5. 最长公共子序列（动态规划）

6. 反转链表（递归+迭代）

7. 第k大元素（快速选择）

大厂面试真题汇总

大厂面试真题汇总

目录

Transformer基础

1. 请简述Self-Attention的计算方式

2. 为什么需要多头注意力机制？