大模型系统设计题

本文整理了大模型面试中常见的系统设计问题，包括LLM推理服务、RAG系统、Agent系统等典型场景，涵盖架构设计原则和性能优化考量。

系统设计基本原则

1. 拆分与模块化

按照功能拆分成独立服务，解耦
每个服务只做一件事，可独立扩展
API接口定义清晰，前后端/服务间解耦

2. 可扩展性设计

水平扩展：增加机器就能扩容
负载均衡：流量均匀分配到多台机器
无状态设计：服务本身不保存请求状态，方便扩容

3. 可用性考量

降级熔断：下游服务故障时，降级返回默认回答，不影响整体服务
重试超时：合理设置重试和超时，避免雪崩
监控告警：关键指标监控，异常及时告警

4. 延迟与吞吐量优化

缓存热点数据
异步处理非核心流程
批处理提高GPU利用率

设计一个大模型推理服务

需求分析

功能性需求：

支持用户文本输入，流式输出大模型生成结果
支持多并发请求
支持不同大小的模型（7B、13B、70B）

非功能性需求：

低延迟：用户输入后尽快开始输出
高吞吐量：单位时间处理更多请求
高可用性：服务可用率99.9%+
可扩展：流量增长能快速扩容

架构设计

整体分层架构：

┌─────────────┐
│   CDN/Nginx │ 负载均衡 / 静态资源
└──────┬──────┘
       ↓
┌─────────────┐
│  API网关    │ 认证限流日志
└──────┬──────┘
       ↓
┌─────────────┐
│ 推理服务池  │ 多个推理Worker实例
└──────┬──────┘
       ↓
┌─────────────┐
│  GPU计算资源│ 模型加载 + 前向计算
└─────────────┘

关键技术点

1. 模型部署方式

部署方式	适用场景	优缺点
单GPU单模型：一张卡放一个模型	大模型（70B+），吞吐量要求不高	简单稳定，GPU利用率可能不够满
单GPU多模型：一张卡放多个小模型（7B以下）	小模型，高并发场景	提高GPU利用率，需要做好显存管理
多GPU张量并行：一个模型切到多张卡	大模型单卡放不下	推理延迟低，需要多卡互联

2. 推理优化技术

KV缓存优化：

自回归生成每一步都需要之前的K和V，缓存起来避免重复计算
PageAttention（vLLM）：将KV缓存分成块，按需分配，解决内存碎片化，大幅提升吞吐量

连续批处理（Continuous Batching）：

不同长度请求动态组成batch，不等待最长的生成完成
相比静态batch，提高GPU利用率和吞吐量

量化：

FP16 → INT8 / INT4量化，减少显存占用，提高吞吐量
现在量化技术精度损失很小，部署推荐使用

算子优化：

层融合（Layer Fusion）：多个算子融合成一个核，减少IO
TensorRT-LLM / vLLM 都做了深度算子优化

3. 并发调度策略

优势：

动态批处理：新来的请求凑够一个batch再跑，提高GPU利用率
优先级调度：长回答不阻塞短查询，小请求优先处理

4. 流式输出实现

每生成一个token就通过HTTP chunked encoding返回给客户端
用户不用等到全部生成完就能看到结果，体验更好
Nginx需要关闭gzip压缩，否则会缓存整个响应

高可用性设计

多实例部署：多个推理实例，负载均衡分发，挂了一个自动切走
健康检查：定期探测实例健康状态，异常实例自动摘除
弹性扩缩容：根据QPS和GPU利用率自动扩缩实例数

性能指标监控

需要监控这些关键指标：

TTFT（Time To First Token）：第一个token出来的时间，影响用户体验
TPOT（Time Per Output Token）：每个生成token的平均时间
吞吐量：每秒处理多少token / 多少请求
GPU利用率：太高会排队，太低浪费资源，理想在70%-90%
错误率：请求失败率
队列延迟：请求排队等GPU的时间

总结设计要点

层面	要点
架构	分层设计，负载均衡，无状态推理服务
计算	KV缓存优化，连续批处理，量化，算子融合
调度	动态批处理，提高GPU利用率
可用性	多实例，健康检查，弹性伸缩
监控	TTFT、TPOT、吞吐量、GPU利用率

设计一个RAG检索增强生成系统

需求分析

功能性需求：

支持文档上传和管理
支持用户问题，基于知识库回答
答案可追溯，显示引用来源
支持增量更新知识库

非功能性需求：

低延迟：问答响应在几秒内
准确率：能召回相关文档
可扩展：支持百万级文档

整体架构

┌─────────────┐
│ 用户问题    │
└──────┬──────┘
       ↓
┌─────────────┐
│ Query优化   │ 改写/扩展/纠错
└──────┬──────┘
       ↓
┌─────────────┐
│ 向量召回     │ 向量库TOPK召回
│ 关键词召回   │ BM25召回
└──────┬──────┘
       ↓
┌─────────────┐
│ 重排序       │ CrossEncoder重排
└──────┬──────┘
       ↓
┌─────────────┐
│ Prompt拼接   │ 问题+检索结果
└──────┬──────┘
       ↓
┌─────────────┐
│ LLM生成回答  │
└──────┬──────┘
       ↓
┌─────────────┐
│ 后处理+引用  │ 整理回答+标注来源
└─────────────┘

离线文档处理流程：

文档上传 → 文本清洗 → 智能分块 → Embedding向量化 → 存入向量库

关键设计点

1. 文档分块策略

常见方法：

固定长度分块：按token数切分，简单高效，是最常用的
语义分块：基于语义相似度切分，块内语义连贯，效果好但慢
按结构分块：利用标题段落Markdown结构切分，更符合阅读逻辑

经验值：

块大小：通常512-1024 tokens
重叠：相邻块重叠50-100 tokens，保证上下文连贯性

2. 召回策略

多路召回融合：

稠密向量召回：用Embedding模型把query向量化，向量库找topK相似，捕捉语义
稀疏BM25召回：关键词匹配，找精确匹配，弥补向量召回不足
融合排序：分数归一化后加权融合，或者交叉重排

为什么需要多路？

向量召回擅长语义相似，但可能漏掉精确关键词匹配
BM25擅长关键词，缺乏语义理解
两者互补，结合效果更好

3. 向量库选型

向量库	特点	适用场景
FAISS	Facebook开源，性能好，可本地部署	中小规模数据，离线使用
Chroma	轻量，易用，Python开发	原型开发，小数据量
Weaviate	功能全，支持多模态，云原生	生产环境，需要扩展性
Milvus/Zilliz	分布式，高可用，生产级	大规模数据，生产环境
PGVector	PostgreSQL扩展，不用额外组件	已有PG，数据量不大

4. Embedding模型选择

开源模型：bge-large-zh、m3e、text-embedding-ada-002
对中文任务，优先选择中文训练的Embedding模型，效果比OpenAI的好
如果需要更小更快，可以选择bge-base-zh，大小适中效果不错

5. 重排序（Rerank）

召回阶段通常返回top 50-100，然后用重排序模型从中选top 5-10给LLM
常用CrossEncoder模型，接收query+doc对，输出相关性分数，比Embedding召回更准确
重排序虽然增加一点计算，但能大幅提高最终准确率，性价比很高

6. 增量更新知识库

新增文档直接处理后插入向量库即可，不需要重新索引所有文档
删除文档标记删除状态，查询过滤掉
更新文档先删再加

常见问题与优化

问题1：召回了不相关的文档怎么办？

优化：更好的分块 → 更好的Embedding → 加入重排序 → 多路召回融合

问题2：回答引用了错误的来源怎么办？

优化：prompt中明确要求只能基于提供的上下文回答，不能编造
后处理检查回答中的内容是否真的出现在上下文中
大模型有时候会“胡编”引用，需要做校验

问题3：文档太长，超过LLM上下文窗口怎么办？

优化：合理分块，控制每个块长度不超过剩余上下文
层次化召回：先召回块，再对块做摘要，再给LLM
动态选择最重要的块，不都放进去

问题4：RAG怎么评估效果？

检索端评估：Recall@k、MRR、NDCG
生成端评估：人工评估（正确性、完整性、相关性），ROUGE指标
人工评估仍是金标准

架构部署建议

离线处理：可以用Celery异步任务处理文档上传，不用阻塞请求
向量库：独立部署，方便扩展和备份
LLM推理：复用已有的推理服务
存储：原始文档存在对象存储（如S3），元数据存在关系型数据库

设计一个Agent智能体系统

需求分析

功能性需求：

支持用户复杂任务，能拆分成多步，调用工具完成
支持调用外部API/工具（搜索、计算器、数据库查询等）
能思考推理，最终给出答案
支持多轮对话

非功能性需求：

正确性：尽量完成任务，少幻觉
可扩展性：方便添加新工具
可调试：能看到Agent思考过程

整体架构

┌─────────────────────────────────────────────┐
│ 用户输入                                     │
└────────────┬────────────────────────────────┘
             ↓
┌─────────────────────────────────────────────┐
│ 任务理解 + 意图识别                          │
└────────────┬────────────────────────────────┘
             ↓
┌─────────────────────────────────────────────┐
│ 规划（Planning）                            │
│ - 任务拆解成多步                             │
│ - 决定下一步调用什么工具                     │
└────────────┬────────────────────────────────┘
             ↓
┌─────────────────────────────────────────────┐
│ 工具调用（Tool Calling）                    │
│ - 参数提取                                 │
│ - 调用外部工具/API                          │
└────────────┬────────────────────────────────┘
             ↓
┌─────────────────────────────────────────────┐
│ 观察（Observation）                         │
│ - 获取工具返回结果                          │
└────────────┬────────────────────────────────┘
             ↓
┌─────────────────────────────────────────────┐
│ 反思 + 判断是否完成                          │
│ → 完成：整合结果输出给用户                  │
│ → 未完成：回到规划下一步                    │
└────────────┬────────────────────────────────┘
             ↓
┌─────────────────────────────────────────────┐
│ 最终回答                                   │
└─────────────────────────────────────────────┘

关键设计点

1. 工具定义与注册

工具描述格式（给大模型看）：

工具名称
工具功能描述：干什么用的，什么时候应该用它
参数定义：每个参数类型、含义、是否必填

示例：

json

{
  "name": "search",
  "description": "搜索互联网获取实时信息，当你不知道答案或者需要最新新闻时事的时候使用",
  "parameters": {
    "query": {
      "type": "string",
      "description": "搜索关键词"
    }
  }
}

工具注册机制：

工具开发者实现工具接口（输入参数→输出结果）
注册到工具库，系统自动发现和调用
方便新增工具，不用改核心逻辑

2. 规划策略

常见规划方法：

方法	特点	适用场景
ReAct	Reasoning + Acting，每次一步，思考→行动→观察循环	大多数场景，实现简单稳定
Chain-of-Thought	一步步思考，输出推理过程	数学推理、逻辑题
Tree-of-Thought	探索多条推理路径，择优选择	复杂推理，正确率要求高
Plan-and-Execute	先做整体计划，再一步步执行	复杂长任务

工程建议：ReAct最容易实现，稳定性也不错，先从ReAct开始，满足大多数需求。

3. 上下文管理

Agent多轮推理会不断增加上下文长度，需要处理：

滑动窗口：保留最近N轮，扔掉最早的
摘要压缩：定期对历史对话做摘要，压缩长度
重要性排序：保留重要步骤，去掉不重要的尝试

4. 错误处理

参数解析错误：大模型生成的JSON格式不对，参数不对，需要重试，让大模型修正
工具调用失败：API超时、返回错误，把错误信息告诉大模型，让它自己处理重试
陷入循环：连续多步都是同一个调用没有进展，强制终止，返回当前结果，提示用户
超时控制：整个Agent执行设置最大步数和超时时间，防止无限循环

5. 可观测性设计

记录整个思考过程：每一步规划了什么，调用了什么工具，得到什么结果
支持回放：出问题可以回看整个过程方便调试
关键指标：任务成功率、平均步数、失败原因分布

多Agent系统设计

如果需要多个Agent协作完成任务：

典型架构：

规划Agent：负责整体任务拆解
执行Agent：每个执行Agent负责一个领域的任务（比如搜索Agent、代码Agent）
协调Agent：负责整合各个执行Agent的结果，输出最终答案

通信方式：

共享消息队列/黑板模式：所有Agent都能读写共享上下文
层级结构：规划Agent调度各个执行Agent，结果汇总

设计一个大模型微调平台

需求分析

功能性需求：

支持数据上传和预处理
支持多种微调方式（全微调、LoRA、QLoRA）
支持训练任务监控
支持训练完模型部署推理

非功能性需求：

多租户资源隔离
GPU资源调度利用率高
任务可中断可恢复

架构设计

┌─────────────┐
│ 前端控制台  │
└──────┬──────┘
       ↓
┌─────────────┐
│ API服务     │ 任务提交/查询/监控
└──────┬──────┘
       ↓
┌─────────────┐
│ 任务调度器  │ 排队 + GPU分配
└──────┬──────┘
       ↓
┌─────────────┐
│ 训练Worker  │ 拉取任务 → 数据预处理 → 启动训练
└──────┬──────┘
       ↓
┌─────────────┐
│ GPU集群     │ 实际训练计算
└──────┬──────┘
       ↓
┌─────────────┐
│ 模型存储    │ 保存训练好的LoRA权重/全量权重
└─────────────┘

关键设计点

1. GPU资源调度

调度策略：

任务排队：GPU都被占了，任务进入队列等待
碎片化利用：小模型可以多个任务共享一张GPU，提高利用率
队列优先级：高优先级任务优先调度

监控：每个任务的GPU利用率、显存占用、训练loss实时采集显示

2. 支持常见微调方法

方法	显存需求	适合场景
Full Fine-tuning	高，需要多卡	数据量大，追求最佳效果
LoRA	低，单卡就能调大模型	大多数场景，快速迭代
QLoRA	更低，4bit量化，单卡调70B	资源有限，效果接近全微调

3. 数据预处理流水线

格式校验：检查数据集格式是否正确
去重：去掉重复样本
过滤：过滤掉低质量、违规样本
格式化：转换成训练所需的conversation格式
分词：提前token化，节省训练时CPU时间

4. 训练中断恢复

定期保存checkpoint
支持从最近checkpoint恢复训练，不用从头开始
训练异常退出自动记录断点

性能优化考量

无论什么系统，都需要从这几个维度考虑性能优化：

1. 计算层面

批处理：GPU适合大batch计算，尽量凑批提高利用率
量化：INT8/INT4减少显存，提高吞吐量，精度损失可接受
算子融合：减少kernel启动次数和IO，提高计算效率
算子选择：选用针对硬件优化过的内核（FlashAttention等）

2. 存储层面

缓存热点：热门请求缓存Embedding或模型输出，节省计算
分层存储：低频数据放到对象存储，不占用高速存储
预计算：离线预计算Embedding，线上只用查询不用计算

3. 网络层面

CDN缓存：静态资源放CDN，减少回源
连接复用：HTTP连接池复用，减少握手开销
压缩：响应用gzip/brotli压缩，减少传输量

4. 架构层面

异步解耦：非核心流程异步化，快速响应用户
读写分离：查询压力大可以只读副本扩展
水平拆分：数据按业务拆分到不同库，分散压力

总结

大模型系统设计题核心考察：

需求拆解能力：能否把复杂需求拆解成可落地的模块
trade-off思维：知道不同方案优缺点，能根据场景选择合适方案
工程实践经验：考虑可用性、可扩展性、可观测性等生产问题
对大模型特性理解：合理利用大模型能力，知道其局限性并设计应对方案

记住：没有完美的架构，只有适合场景的架构。设计师的工作就是根据需求和资源，做出最合适的选择。

大模型系统设计题

本文整理了大模型面试中常见的系统设计问题，包括LLM推理服务、RAG系统、Agent系统等典型场景，涵盖架构设计原则和性能优化考量。

系统设计基本原则

1. 拆分与模块化

按照功能拆分成独立服务，解耦
每个服务只做一件事，可独立扩展
API接口定义清晰，前后端/服务间解耦

2. 可扩展性设计

水平扩展：增加机器就能扩容
负载均衡：流量均匀分配到多台机器
无状态设计：服务本身不保存请求状态，方便扩容

3. 可用性考量

降级熔断：下游服务故障时，降级返回默认回答，不影响整体服务
重试超时：合理设置重试和超时，避免雪崩
监控告警：关键指标监控，异常及时告警

4. 延迟与吞吐量优化

缓存热点数据
异步处理非核心流程
批处理提高GPU利用率

设计一个大模型推理服务

需求分析

功能性需求：

支持用户文本输入，流式输出大模型生成结果
支持多并发请求
支持不同大小的模型（7B、13B、70B）

非功能性需求：

低延迟：用户输入后尽快开始输出
高吞吐量：单位时间处理更多请求
高可用性：服务可用率99.9%+
可扩展：流量增长能快速扩容

架构设计

整体分层架构：

┌─────────────┐
│   CDN/Nginx │ 负载均衡 / 静态资源
└──────┬──────┘
       ↓
┌─────────────┐
│  API网关    │ 认证限流日志
└──────┬──────┘
       ↓
┌─────────────┐
│ 推理服务池  │ 多个推理Worker实例
└──────┬──────┘
       ↓
┌─────────────┐
│  GPU计算资源│ 模型加载 + 前向计算
└─────────────┘

关键技术点

1. 模型部署方式

部署方式	适用场景	优缺点
单GPU单模型：一张卡放一个模型	大模型（70B+），吞吐量要求不高	简单稳定，GPU利用率可能不够满
单GPU多模型：一张卡放多个小模型（7B以下）	小模型，高并发场景	提高GPU利用率，需要做好显存管理
多GPU张量并行：一个模型切到多张卡	大模型单卡放不下	推理延迟低，需要多卡互联

2. 推理优化技术

KV缓存优化：

自回归生成每一步都需要之前的K和V，缓存起来避免重复计算
PageAttention（vLLM）：将KV缓存分成块，按需分配，解决内存碎片化，大幅提升吞吐量

连续批处理（Continuous Batching）：

不同长度请求动态组成batch，不等待最长的生成完成
相比静态batch，提高GPU利用率和吞吐量

量化：

FP16 → INT8 / INT4量化，减少显存占用，提高吞吐量
现在量化技术精度损失很小，部署推荐使用

算子优化：

层融合（Layer Fusion）：多个算子融合成一个核，减少IO
TensorRT-LLM / vLLM 都做了深度算子优化

3. 并发调度策略

优势：

动态批处理：新来的请求凑够一个batch再跑，提高GPU利用率
优先级调度：长回答不阻塞短查询，小请求优先处理

4. 流式输出实现

每生成一个token就通过HTTP chunked encoding返回给客户端
用户不用等到全部生成完就能看到结果，体验更好
Nginx需要关闭gzip压缩，否则会缓存整个响应

高可用性设计

多实例部署：多个推理实例，负载均衡分发，挂了一个自动切走
健康检查：定期探测实例健康状态，异常实例自动摘除
弹性扩缩容：根据QPS和GPU利用率自动扩缩实例数

性能指标监控

需要监控这些关键指标：

TTFT（Time To First Token）：第一个token出来的时间，影响用户体验
TPOT（Time Per Output Token）：每个生成token的平均时间
吞吐量：每秒处理多少token / 多少请求
GPU利用率：太高会排队，太低浪费资源，理想在70%-90%
错误率：请求失败率
队列延迟：请求排队等GPU的时间

总结设计要点

层面	要点
架构	分层设计，负载均衡，无状态推理服务
计算	KV缓存优化，连续批处理，量化，算子融合
调度	动态批处理，提高GPU利用率
可用性	多实例，健康检查，弹性伸缩
监控	TTFT、TPOT、吞吐量、GPU利用率

设计一个RAG检索增强生成系统

需求分析

功能性需求：

支持文档上传和管理
支持用户问题，基于知识库回答
答案可追溯，显示引用来源
支持增量更新知识库

非功能性需求：

低延迟：问答响应在几秒内
准确率：能召回相关文档
可扩展：支持百万级文档

整体架构

┌─────────────┐
│ 用户问题    │
└──────┬──────┘
       ↓
┌─────────────┐
│ Query优化   │ 改写/扩展/纠错
└──────┬──────┘
       ↓
┌─────────────┐
│ 向量召回     │ 向量库TOPK召回
│ 关键词召回   │ BM25召回
└──────┬──────┘
       ↓
┌─────────────┐
│ 重排序       │ CrossEncoder重排
└──────┬──────┘
       ↓
┌─────────────┐
│ Prompt拼接   │ 问题+检索结果
└──────┬──────┘
       ↓
┌─────────────┐
│ LLM生成回答  │
└──────┬──────┘
       ↓
┌─────────────┐
│ 后处理+引用  │ 整理回答+标注来源
└─────────────┘

离线文档处理流程：

文档上传 → 文本清洗 → 智能分块 → Embedding向量化 → 存入向量库

关键设计点

1. 文档分块策略

常见方法：

固定长度分块：按token数切分，简单高效，是最常用的
语义分块：基于语义相似度切分，块内语义连贯，效果好但慢
按结构分块：利用标题段落Markdown结构切分，更符合阅读逻辑

经验值：

块大小：通常512-1024 tokens
重叠：相邻块重叠50-100 tokens，保证上下文连贯性

2. 召回策略

多路召回融合：

稠密向量召回：用Embedding模型把query向量化，向量库找topK相似，捕捉语义
稀疏BM25召回：关键词匹配，找精确匹配，弥补向量召回不足
融合排序：分数归一化后加权融合，或者交叉重排

为什么需要多路？

向量召回擅长语义相似，但可能漏掉精确关键词匹配
BM25擅长关键词，缺乏语义理解
两者互补，结合效果更好

3. 向量库选型

向量库	特点	适用场景
FAISS	Facebook开源，性能好，可本地部署	中小规模数据，离线使用
Chroma	轻量，易用，Python开发	原型开发，小数据量
Weaviate	功能全，支持多模态，云原生	生产环境，需要扩展性
Milvus/Zilliz	分布式，高可用，生产级	大规模数据，生产环境
PGVector	PostgreSQL扩展，不用额外组件	已有PG，数据量不大

4. Embedding模型选择

开源模型：bge-large-zh、m3e、text-embedding-ada-002
对中文任务，优先选择中文训练的Embedding模型，效果比OpenAI的好
如果需要更小更快，可以选择bge-base-zh，大小适中效果不错

5. 重排序（Rerank）

召回阶段通常返回top 50-100，然后用重排序模型从中选top 5-10给LLM
常用CrossEncoder模型，接收query+doc对，输出相关性分数，比Embedding召回更准确
重排序虽然增加一点计算，但能大幅提高最终准确率，性价比很高

6. 增量更新知识库

新增文档直接处理后插入向量库即可，不需要重新索引所有文档
删除文档标记删除状态，查询过滤掉
更新文档先删再加

常见问题与优化

问题1：召回了不相关的文档怎么办？

优化：更好的分块 → 更好的Embedding → 加入重排序 → 多路召回融合

问题2：回答引用了错误的来源怎么办？

优化：prompt中明确要求只能基于提供的上下文回答，不能编造
后处理检查回答中的内容是否真的出现在上下文中
大模型有时候会“胡编”引用，需要做校验

问题3：文档太长，超过LLM上下文窗口怎么办？

优化：合理分块，控制每个块长度不超过剩余上下文
层次化召回：先召回块，再对块做摘要，再给LLM
动态选择最重要的块，不都放进去

问题4：RAG怎么评估效果？

检索端评估：Recall@k、MRR、NDCG
生成端评估：人工评估（正确性、完整性、相关性），ROUGE指标
人工评估仍是金标准

架构部署建议

离线处理：可以用Celery异步任务处理文档上传，不用阻塞请求
向量库：独立部署，方便扩展和备份
LLM推理：复用已有的推理服务
存储：原始文档存在对象存储（如S3），元数据存在关系型数据库

设计一个Agent智能体系统

需求分析

功能性需求：

支持用户复杂任务，能拆分成多步，调用工具完成
支持调用外部API/工具（搜索、计算器、数据库查询等）
能思考推理，最终给出答案
支持多轮对话

非功能性需求：

正确性：尽量完成任务，少幻觉
可扩展性：方便添加新工具
可调试：能看到Agent思考过程

整体架构

┌─────────────────────────────────────────────┐
│ 用户输入                                     │
└────────────┬────────────────────────────────┘
             ↓
┌─────────────────────────────────────────────┐
│ 任务理解 + 意图识别                          │
└────────────┬────────────────────────────────┘
             ↓
┌─────────────────────────────────────────────┐
│ 规划（Planning）                            │
│ - 任务拆解成多步                             │
│ - 决定下一步调用什么工具                     │
└────────────┬────────────────────────────────┘
             ↓
┌─────────────────────────────────────────────┐
│ 工具调用（Tool Calling）                    │
│ - 参数提取                                 │
│ - 调用外部工具/API                          │
└────────────┬────────────────────────────────┘
             ↓
┌─────────────────────────────────────────────┐
│ 观察（Observation）                         │
│ - 获取工具返回结果                          │
└────────────┬────────────────────────────────┘
             ↓
┌─────────────────────────────────────────────┐
│ 反思 + 判断是否完成                          │
│ → 完成：整合结果输出给用户                  │
│ → 未完成：回到规划下一步                    │
└────────────┬────────────────────────────────┘
             ↓
┌─────────────────────────────────────────────┐
│ 最终回答                                   │
└─────────────────────────────────────────────┘

关键设计点

1. 工具定义与注册

工具描述格式（给大模型看）：

工具名称
工具功能描述：干什么用的，什么时候应该用它
参数定义：每个参数类型、含义、是否必填

示例：

json

{
  "name": "search",
  "description": "搜索互联网获取实时信息，当你不知道答案或者需要最新新闻时事的时候使用",
  "parameters": {
    "query": {
      "type": "string",
      "description": "搜索关键词"
    }
  }
}

工具注册机制：

工具开发者实现工具接口（输入参数→输出结果）
注册到工具库，系统自动发现和调用
方便新增工具，不用改核心逻辑

2. 规划策略

常见规划方法：

方法	特点	适用场景
ReAct	Reasoning + Acting，每次一步，思考→行动→观察循环	大多数场景，实现简单稳定
Chain-of-Thought	一步步思考，输出推理过程	数学推理、逻辑题
Tree-of-Thought	探索多条推理路径，择优选择	复杂推理，正确率要求高
Plan-and-Execute	先做整体计划，再一步步执行	复杂长任务

工程建议：ReAct最容易实现，稳定性也不错，先从ReAct开始，满足大多数需求。

3. 上下文管理

Agent多轮推理会不断增加上下文长度，需要处理：

滑动窗口：保留最近N轮，扔掉最早的
摘要压缩：定期对历史对话做摘要，压缩长度
重要性排序：保留重要步骤，去掉不重要的尝试

4. 错误处理

参数解析错误：大模型生成的JSON格式不对，参数不对，需要重试，让大模型修正
工具调用失败：API超时、返回错误，把错误信息告诉大模型，让它自己处理重试
陷入循环：连续多步都是同一个调用没有进展，强制终止，返回当前结果，提示用户
超时控制：整个Agent执行设置最大步数和超时时间，防止无限循环

5. 可观测性设计

记录整个思考过程：每一步规划了什么，调用了什么工具，得到什么结果
支持回放：出问题可以回看整个过程方便调试
关键指标：任务成功率、平均步数、失败原因分布

多Agent系统设计

如果需要多个Agent协作完成任务：

典型架构：

规划Agent：负责整体任务拆解
执行Agent：每个执行Agent负责一个领域的任务（比如搜索Agent、代码Agent）
协调Agent：负责整合各个执行Agent的结果，输出最终答案

通信方式：

共享消息队列/黑板模式：所有Agent都能读写共享上下文
层级结构：规划Agent调度各个执行Agent，结果汇总

设计一个大模型微调平台

需求分析

功能性需求：

支持数据上传和预处理
支持多种微调方式（全微调、LoRA、QLoRA）
支持训练任务监控
支持训练完模型部署推理

非功能性需求：

多租户资源隔离
GPU资源调度利用率高
任务可中断可恢复

架构设计

┌─────────────┐
│ 前端控制台  │
└──────┬──────┘
       ↓
┌─────────────┐
│ API服务     │ 任务提交/查询/监控
└──────┬──────┘
       ↓
┌─────────────┐
│ 任务调度器  │ 排队 + GPU分配
└──────┬──────┘
       ↓
┌─────────────┐
│ 训练Worker  │ 拉取任务 → 数据预处理 → 启动训练
└──────┬──────┘
       ↓
┌─────────────┐
│ GPU集群     │ 实际训练计算
└──────┬──────┘
       ↓
┌─────────────┐
│ 模型存储    │ 保存训练好的LoRA权重/全量权重
└─────────────┘

关键设计点

1. GPU资源调度

调度策略：

任务排队：GPU都被占了，任务进入队列等待
碎片化利用：小模型可以多个任务共享一张GPU，提高利用率
队列优先级：高优先级任务优先调度

监控：每个任务的GPU利用率、显存占用、训练loss实时采集显示

2. 支持常见微调方法

方法	显存需求	适合场景
Full Fine-tuning	高，需要多卡	数据量大，追求最佳效果
LoRA	低，单卡就能调大模型	大多数场景，快速迭代
QLoRA	更低，4bit量化，单卡调70B	资源有限，效果接近全微调

3. 数据预处理流水线

格式校验：检查数据集格式是否正确
去重：去掉重复样本
过滤：过滤掉低质量、违规样本
格式化：转换成训练所需的conversation格式
分词：提前token化，节省训练时CPU时间

4. 训练中断恢复

定期保存checkpoint
支持从最近checkpoint恢复训练，不用从头开始
训练异常退出自动记录断点

性能优化考量

无论什么系统，都需要从这几个维度考虑性能优化：

1. 计算层面

批处理：GPU适合大batch计算，尽量凑批提高利用率
量化：INT8/INT4减少显存，提高吞吐量，精度损失可接受
算子融合：减少kernel启动次数和IO，提高计算效率
算子选择：选用针对硬件优化过的内核（FlashAttention等）

2. 存储层面

缓存热点：热门请求缓存Embedding或模型输出，节省计算
分层存储：低频数据放到对象存储，不占用高速存储
预计算：离线预计算Embedding，线上只用查询不用计算

3. 网络层面

CDN缓存：静态资源放CDN，减少回源
连接复用：HTTP连接池复用，减少握手开销
压缩：响应用gzip/brotli压缩，减少传输量

4. 架构层面

异步解耦：非核心流程异步化，快速响应用户
读写分离：查询压力大可以只读副本扩展
水平拆分：数据按业务拆分到不同库，分散压力

总结

大模型系统设计题核心考察：

需求拆解能力：能否把复杂需求拆解成可落地的模块
trade-off思维：知道不同方案优缺点，能根据场景选择合适方案
工程实践经验：考虑可用性、可扩展性、可观测性等生产问题
对大模型特性理解：合理利用大模型能力，知道其局限性并设计应对方案

记住：没有完美的架构，只有适合场景的架构。设计师的工作就是根据需求和资源，做出最合适的选择。

大模型面试

大模型面试

大模型系统设计题

大模型系统设计题

目录

系统设计基本原则

1. 拆分与模块化

2. 可扩展性设计

3. 可用性考量

4. 延迟与吞吐量优化

设计一个大模型推理服务

需求分析

架构设计

关键技术点

1. 模型部署方式

2. 推理优化技术

3. 并发调度策略

4. 流式输出实现

高可用性设计

性能指标监控

总结设计要点

设计一个RAG检索增强生成系统

需求分析

整体架构

关键设计点

1. 文档分块策略

2. 召回策略

3. 向量库选型

4. Embedding模型选择

5. 重排序（Rerank）

6. 增量更新知识库

常见问题与优化

架构部署建议

设计一个Agent智能体系统

需求分析

整体架构

关键设计点

1. 工具定义与注册

2. 规划策略

3. 上下文管理

4. 错误处理

5. 可观测性设计

多Agent系统设计

设计一个大模型微调平台

需求分析

架构设计

关键设计点

1. GPU资源调度

2. 支持常见微调方法

3. 数据预处理流水线

4. 训练中断恢复

性能优化考量

1. 计算层面

2. 存储层面

3. 网络层面

4. 架构层面

总结

大模型系统设计题

大模型系统设计题

目录

系统设计基本原则

1. 拆分与模块化

2. 可扩展性设计

3. 可用性考量

4. 延迟与吞吐量优化

设计一个大模型推理服务

需求分析

架构设计

关键技术点

1. 模型部署方式

2. 推理优化技术

3. 并发调度策略

4. 流式输出实现

高可用性设计

性能指标监控

总结设计要点

设计一个RAG检索增强生成系统

需求分析

整体架构

关键设计点