其他推理框架对比

除了vLLM，业界还有很多优秀的大模型推理加速框架，各有特点和适用场景。

FasterTransformer

介绍

NVIDIA FasterTransformer (FT) 是一个基于Transformer神经网络推理的加速引擎库，用C++/CUDA编写，依赖cuBLAS、cuBLASLt和cuSPARSELt库，专注于大模型分布式推理加速。

支持：

完整编码器-解码器（T5）
仅编码器（BERT）
仅解码器（GPT、LLaMA等）

核心技术

1. 张量并行 + 流水线并行

张量并行：每个张量拆分到多个GPU，每个GPU计算一部分，最后合并结果
流水线并行：模型按层深度拆分，不同层放到不同GPU/节点
支持TP+PP组合，可以在多GPU多节点上运行千亿甚至万亿参数模型
底层用MPI和NCCL做通信

2. 推理缓存优化

对自回归生成的KV缓存分块存储，避免重复计算
类似vLLM PagedAttention的思路

3. 内存优化

缓存激活值和输出，重复利用避免重复计算保存
GPT-3 96层只需要1/96的内存存储激活

4. 通信优化

张量并行遵循Megatron思想，每个Transformer块只需要两次归约操作
流水线并行将整批拆分为多个微批，隐藏通信泡沫，自动调整微批量大小

5. GEMM自动调优

矩阵乘法可以用几十种不同底层算法，FT实时基准测试选择最优算法
根据参数大小、输入尺寸动态选择最快方案

6. 量化支持

内核支持FP16和INT8推理
更少数据传输，利用Tensor Core加速

优缺点

优点：

NVIDIA官方优化，在NVIDIA硬件上性能非常好
支持超大规模分布式推理
C++实现，底层优化到位

缺点：

C++开发，二次开发成本高
没有很好的服务调度处理
对新模型支持较慢

LightLLM

介绍

纯Python开发的超轻量级高性能LLM推理框架，核心贡献是TokenAttention和Efficient Router，在很多场景下比vLLM和TGI吞吐量更高，部分场景提升可达4倍。

核心技术

1. TokenAttention

以Token为粒度进行KV缓存显存管理
初始化时根据max_total_token_num预分配KV缓存，创建Token Table记录存储位置
优先分配连续显存，只有不够时才分配非连续
利用GPU并行做状态管理，分配释放非常高效
理论上可以做到显存空间零浪费，精确统计可用容量

分配过程：

python

# 预分配状态数组：1表示未使用，0表示已使用
self.mem_state = torch.ones((size,), dtype=torch.bool, device="cuda")
# 累加和筛选可用空间
torch.cumsum(self.mem_state, dim=0, out=self._mem_cum_sum)
select_index = torch.logical_and(
    self._mem_cum_sum <= need_size, self.mem_state == 1
)

2. Efficient Router

动态判断新请求能否和当前运行的Batch融合
基于TokenAttention可以精确计算任意时刻Token使用量
保证动态推理过程最大Token使用量不超过容量，永远不会OOM
按剩余输出长度排序，计算最坏情况下Token占用，只有满足条件才允许加入

python

# 简化判断逻辑
left_out_len_array = np.array([e[1] for e in req_list])
has_run_len_array = np.array([e[0] for e in req_list])
cum_run_len_array = np.cumsum(has_run_len_array)
size_array = np.arange(1, len(req_list) + 1)
need_max_token_num = (left_out_len_array * size_array + cum_run_len_array).max()
ok = need_max_token_num <= max_total_token_num

3. 三进程架构

三个进程分别处理tokenize、detokenize和模型推理
避免CPU处理阻塞GPU调度，提高GPU利用率

性能表现

在各种大小模型上都比TGI和vLLM吞吐量更高
LLaMA-65B相对TGI和vLLM获得约3倍提升
TokenAttention+Efficient Router给原始TGI带来4倍以上性能提升
长短差异大的请求下，Efficient Router带来近50%提升

优缺点：

优点：

纯Python，轻量级，易于修改定制
更高吞吐量，特别是大模型并发场景
精确显存管理，不容易OOM

缺点：

相对较新，生态不如vLLM成熟
支持模型目前还不多（主要支持LLaMA、BLOOM）

StreamingLLM

问题背景

大语言模型预训练被限制在有限注意力窗口内
KV缓存随着多轮对话不断增长，显存占用越来越大
滑动窗口方法一旦踢出最早token，生成质量迅速崩溃
微调后模型泛化不到比训练更长的序列

核心思想

研究者观察到Attention Sink现象：文本最初几个token总是吸收了大量无用注意力。

StreamingLLM方法：

始终保留最初几个token（sink）在窗口内
加上最近N个token的滑动窗口
踢出中间的token，不需要保存全部历史
不需要重新训练模型，直接兼容现有大模型

初始token: [S1, S2, S3, ...] 始终保留 ← Attention Sink
+ 最近K个token: [T1, T2, ..., TK] 滑动窗口
= 总窗口大小固定为 (初始N + 最近K)，显存不变

效果

能够在不牺牲推理速度和生成质量前提下，支持百万token级流式输入
比带重计算的滑动窗口注意力快22.2倍

SwiftInfer

基于TensorRT实现的StreamingLLM优化版本
重新实现KV缓存机制和带位置偏移的注意力模块
在StreamingLLM基础上再获得最多46%的推理吞吐量提升
为多轮对话提供低延迟高吞吐的方案

TensorRT-LLM

NVIDIA推出的专门针对LLM推理优化的框架：

特点：

基于TensorRT编译器，做层融合、核优化等
支持PagedAttention、INT4/INT8量化
支持StreamingLLM
张量并行、流水线并行分布式推理
在NVIDIA硬件上能达到极致性能
C++实现，Python接口

适合： 生产环境部署，追求极致性能

Text Generation Inference (TGI)

HuggingFace推出的LLM推理服务框架：

特点：

Rust+Python+gRPC，现成Docker镜像
支持FlashAttention v2、PagedAttention
内置监控，易于部署
开箱即用，HuggingFace模型生态集成好

缺点：

显存碎片化比较严重，吞吐量不如vLLM
文档不够完整，自定义比较困难

各框架对比

框架	开发语言	核心创新	吞吐量	易用性	分布式	适合场景
vLLM	Python/CUDA	PagedAttention	极高	非常易用	张量并行	研究、生产部署
FasterTransformer	C++/CUDA	TP/PP优化	高	较难	完整支持	NVIDIA硬件生产部署
LightLLM	Python	TokenAttention+EfficientRouter	更高（大并发）	易用	支持	追求极致吞吐
TensorRT-LLM	C++/Python	编译器优化	极致	中等	完整支持	生产环境极致性能
TGI	Rust/Python	服务化	中等	非常易用	支持	HuggingFace生态快速部署
StreamingLLM	Python	Attention Sink	-	易用	-	长对话无限生成
SwiftInfer	C++/TensorRT	StreamingLLM优化	+46% 比StreamingLLM	中等	-	TensorRT环境长对话

面试常见问题

Q1: FasterTransformer主要优化点有哪些？

A: 主要包括：1) 张量并行和流水线并行分布式支持；2) KV缓存分块优化；3) 激活缓存重用减少内存占用；4) 通信优化减少归约次数；5) GEMM自动调优选择最优算法；6) 支持INT8/FP16量化。

Q2: LightLLM TokenAttention和PagedAttention有什么不同？

A: PagedAttention是按块分页，块包含固定数量token；TokenAttention是以单个token为粒度管理，预分配整块缓冲，精确跟踪使用状态，可以做到零浪费，更细粒度管理。LightLLM的Efficient Router能更精确判断能否加入新请求，在变长请求并发下利用率更高。

Q3: StreamingLLM为什么需要Attention Sink？直接滑动窗口不行吗？

A: 因为大模型在训练中就形成了模式，开头几个token总是会分配很高注意力权重。如果把它们踢出窗口，注意力分布会严重紊乱，生成质量迅速崩溃。只要保留开头几个sink token，即使踢出中间的，生成质量依然稳定。所以不需要重新训练就能支持无限长度。

Q4: 生产部署选哪个推理框架？

A: 要看具体场景：追求易用性选vLLM，最快上手，吞吐也高；NVIDIA硬件追求极致性能选TensorRT-LLM；需要HuggingFace生态开箱即用选TGI；大并发追求极致吞吐可以试LightLLM；长对话场景需要结合StreamingLLM。

Q5: 什么是Continuous Batching？哪些框架支持？

A: Continuous Batching是动态批处理，每次迭代完成后立即加入新请求，不需要等整个batch完成。vLLM、LightLLM、TGI都支持，比传统静态批处理提高GPU利用率和吞吐量。

Q6: 为什么SwiftInfer比StreamingLLM更快？

A: SwiftInfer基于TensorRT重新实现了StreamingLLM，对KV缓存和注意力模块做了底层优化，充分利用TensorRT的编译器优化和硬件加速，所以在StreamingLLM基础上还能提升46%。

其他推理框架对比

除了vLLM，业界还有很多优秀的大模型推理加速框架，各有特点和适用场景。

FasterTransformer

介绍

NVIDIA FasterTransformer (FT) 是一个基于Transformer神经网络推理的加速引擎库，用C++/CUDA编写，依赖cuBLAS、cuBLASLt和cuSPARSELt库，专注于大模型分布式推理加速。

支持：

完整编码器-解码器（T5）
仅编码器（BERT）
仅解码器（GPT、LLaMA等）

核心技术

1. 张量并行 + 流水线并行

张量并行：每个张量拆分到多个GPU，每个GPU计算一部分，最后合并结果
流水线并行：模型按层深度拆分，不同层放到不同GPU/节点
支持TP+PP组合，可以在多GPU多节点上运行千亿甚至万亿参数模型
底层用MPI和NCCL做通信

2. 推理缓存优化

对自回归生成的KV缓存分块存储，避免重复计算
类似vLLM PagedAttention的思路

3. 内存优化

缓存激活值和输出，重复利用避免重复计算保存
GPT-3 96层只需要1/96的内存存储激活

4. 通信优化

张量并行遵循Megatron思想，每个Transformer块只需要两次归约操作
流水线并行将整批拆分为多个微批，隐藏通信泡沫，自动调整微批量大小

5. GEMM自动调优

矩阵乘法可以用几十种不同底层算法，FT实时基准测试选择最优算法
根据参数大小、输入尺寸动态选择最快方案

6. 量化支持

内核支持FP16和INT8推理
更少数据传输，利用Tensor Core加速

优缺点

优点：

NVIDIA官方优化，在NVIDIA硬件上性能非常好
支持超大规模分布式推理
C++实现，底层优化到位

缺点：

C++开发，二次开发成本高
没有很好的服务调度处理
对新模型支持较慢

LightLLM

介绍

纯Python开发的超轻量级高性能LLM推理框架，核心贡献是TokenAttention和Efficient Router，在很多场景下比vLLM和TGI吞吐量更高，部分场景提升可达4倍。

核心技术

1. TokenAttention

以Token为粒度进行KV缓存显存管理
初始化时根据max_total_token_num预分配KV缓存，创建Token Table记录存储位置
优先分配连续显存，只有不够时才分配非连续
利用GPU并行做状态管理，分配释放非常高效
理论上可以做到显存空间零浪费，精确统计可用容量

分配过程：

python

# 预分配状态数组：1表示未使用，0表示已使用
self.mem_state = torch.ones((size,), dtype=torch.bool, device="cuda")
# 累加和筛选可用空间
torch.cumsum(self.mem_state, dim=0, out=self._mem_cum_sum)
select_index = torch.logical_and(
    self._mem_cum_sum <= need_size, self.mem_state == 1
)

2. Efficient Router

动态判断新请求能否和当前运行的Batch融合
基于TokenAttention可以精确计算任意时刻Token使用量
保证动态推理过程最大Token使用量不超过容量，永远不会OOM
按剩余输出长度排序，计算最坏情况下Token占用，只有满足条件才允许加入

python

# 简化判断逻辑
left_out_len_array = np.array([e[1] for e in req_list])
has_run_len_array = np.array([e[0] for e in req_list])
cum_run_len_array = np.cumsum(has_run_len_array)
size_array = np.arange(1, len(req_list) + 1)
need_max_token_num = (left_out_len_array * size_array + cum_run_len_array).max()
ok = need_max_token_num <= max_total_token_num

3. 三进程架构

三个进程分别处理tokenize、detokenize和模型推理
避免CPU处理阻塞GPU调度，提高GPU利用率

性能表现

在各种大小模型上都比TGI和vLLM吞吐量更高
LLaMA-65B相对TGI和vLLM获得约3倍提升
TokenAttention+Efficient Router给原始TGI带来4倍以上性能提升
长短差异大的请求下，Efficient Router带来近50%提升

优缺点：

优点：

纯Python，轻量级，易于修改定制
更高吞吐量，特别是大模型并发场景
精确显存管理，不容易OOM

缺点：

相对较新，生态不如vLLM成熟
支持模型目前还不多（主要支持LLaMA、BLOOM）

StreamingLLM

问题背景

大语言模型预训练被限制在有限注意力窗口内
KV缓存随着多轮对话不断增长，显存占用越来越大
滑动窗口方法一旦踢出最早token，生成质量迅速崩溃
微调后模型泛化不到比训练更长的序列

核心思想

研究者观察到Attention Sink现象：文本最初几个token总是吸收了大量无用注意力。

StreamingLLM方法：

始终保留最初几个token（sink）在窗口内
加上最近N个token的滑动窗口
踢出中间的token，不需要保存全部历史
不需要重新训练模型，直接兼容现有大模型

初始token: [S1, S2, S3, ...] 始终保留 ← Attention Sink
+ 最近K个token: [T1, T2, ..., TK] 滑动窗口
= 总窗口大小固定为 (初始N + 最近K)，显存不变

效果

能够在不牺牲推理速度和生成质量前提下，支持百万token级流式输入
比带重计算的滑动窗口注意力快22.2倍

SwiftInfer

基于TensorRT实现的StreamingLLM优化版本
重新实现KV缓存机制和带位置偏移的注意力模块
在StreamingLLM基础上再获得最多46%的推理吞吐量提升
为多轮对话提供低延迟高吞吐的方案

TensorRT-LLM

NVIDIA推出的专门针对LLM推理优化的框架：

特点：

基于TensorRT编译器，做层融合、核优化等
支持PagedAttention、INT4/INT8量化
支持StreamingLLM
张量并行、流水线并行分布式推理
在NVIDIA硬件上能达到极致性能
C++实现，Python接口

适合： 生产环境部署，追求极致性能

Text Generation Inference (TGI)

HuggingFace推出的LLM推理服务框架：

特点：

Rust+Python+gRPC，现成Docker镜像
支持FlashAttention v2、PagedAttention
内置监控，易于部署
开箱即用，HuggingFace模型生态集成好

缺点：

显存碎片化比较严重，吞吐量不如vLLM
文档不够完整，自定义比较困难

各框架对比

框架	开发语言	核心创新	吞吐量	易用性	分布式	适合场景
vLLM	Python/CUDA	PagedAttention	极高	非常易用	张量并行	研究、生产部署
FasterTransformer	C++/CUDA	TP/PP优化	高	较难	完整支持	NVIDIA硬件生产部署
LightLLM	Python	TokenAttention+EfficientRouter	更高（大并发）	易用	支持	追求极致吞吐
TensorRT-LLM	C++/Python	编译器优化	极致	中等	完整支持	生产环境极致性能
TGI	Rust/Python	服务化	中等	非常易用	支持	HuggingFace生态快速部署
StreamingLLM	Python	Attention Sink	-	易用	-	长对话无限生成
SwiftInfer	C++/TensorRT	StreamingLLM优化	+46% 比StreamingLLM	中等	-	TensorRT环境长对话

大模型面试

大模型面试

其他推理框架对比

其他推理框架对比

FasterTransformer

介绍

核心技术

1. 张量并行 + 流水线并行

2. 推理缓存优化

3. 内存优化

4. 通信优化

5. GEMM自动调优

6. 量化支持

优缺点

LightLLM

介绍

核心技术

1. TokenAttention

2. Efficient Router

3. 三进程架构

性能表现

StreamingLLM

问题背景

核心思想

效果

SwiftInfer

TensorRT-LLM

Text Generation Inference (TGI)

各框架对比

面试常见问题

Q1: FasterTransformer主要优化点有哪些？

Q2: LightLLM TokenAttention和PagedAttention有什么不同？

Q3: StreamingLLM为什么需要Attention Sink？直接滑动窗口不行吗？

Q4: 生产部署选哪个推理框架？

Q5: 什么是Continuous Batching？哪些框架支持？

Q6: 为什么SwiftInfer比StreamingLLM更快？

其他推理框架对比

其他推理框架对比

FasterTransformer

介绍

核心技术

1. 张量并行 + 流水线并行

2. 推理缓存优化

3. 内存优化

4. 通信优化

5. GEMM自动调优

6. 量化支持

优缺点

LightLLM

介绍

核心技术

1. TokenAttention

2. Efficient Router

3. 三进程架构

性能表现

StreamingLLM

问题背景

核心思想

效果

SwiftInfer

TensorRT-LLM

Text Generation Inference (TGI)

各框架对比

面试常见问题

Q1: FasterTransformer主要优化点有哪些？

Q2: LightLLM TokenAttention和PagedAttention有什么不同？

Q3: StreamingLLM为什么需要Attention Sink？直接滑动窗口不行吗？

Q4: 生产部署选哪个推理框架？

Q5: 什么是Continuous Batching？哪些框架支持？

Q6: 为什么SwiftInfer比StreamingLLM更快？