vLLM与PagedAttention

为什么需要vLLM

即使在昂贵的GPU硬件上，大语言模型服务仍然可能慢得惊人。主要瓶颈在于KV缓存管理低效和批处理策略不合理：

内存瓶颈：传统KV缓存连续分配导致碎片化，现有系统浪费了60%-80%的内存
动态变化：序列长度变化很大不可预测，难以有效管理内存
低利用率：传统静态批处理需要等待整个batch完成才能处理下一批，GPU利用率低

vLLM是来自加州大学伯克利分校的开源项目，核心贡献是PagedAttention算法，重新定义了LLM推理服务，比HuggingFace Transformers吞吐量高出高达24倍，且不需要任何模型架构修改。

PagedAttention 原理

PagedAttention的灵感来自操作系统中的虚拟内存和分页机制。

核心思想

与传统注意力算法要求KV缓存连续存储不同，PagedAttention允许连续的Key和Value存储在不连续的内存空间中。

具体来说：

将每个序列的KV缓存划分为固定大小的块（页），每个块包含固定数量token的Key和Value
注意力计算时，通过块表查找，高效获取这些不连续的块
逻辑块通过块表映射到物理块，物理块按需分配

点击放大查看

内存利用率

PagedAttention中，只有序列最后一个块会有浪费，实际上内存浪费率低于4%，接近最优。

内存效率提高允许系统将更多序列一起批处理，大幅提高GPU利用率和吞吐量。

内存共享

PagedAttention另一个关键优势是高效的内存共享：

并行采样场景：同一个prompt生成多个输出序列，可以共享prompt的KV缓存
共享通过块表映射实现，类似于操作系统进程共享物理页
使用引用计数和Copy-on-Write机制保证安全
将并行采样和beam search的内存占用降低高达55%，吞吐量提高高达2.2倍

vLLM 架构

点击放大查看

核心特性

PagedAttention：高效KV缓存管理，接近最优内存利用率
Continuous Batching（连续批处理）：迭代级调度，每次迭代动态调整batch大小，一旦有序列完成就加入新请求
优化好的CUDA内核：底层算子高度优化
无缝集成HuggingFace模型：开箱即用，支持大多数流行模型
支持各种解码算法：贪心搜索、beam search、并行采样等
张量并行分布式推理：多GPU分摊大模型
流式输出：支持逐token返回
兼容OpenAI API：可以直接替换OpenAI端点

支持的模型

GPT-2 系列
GPTNeoX 系列（pythia、dolly-v2、stablelm等）
LLaMA 系列（Vicuna、Llama 2、Koala等）
OPT 系列

Continuous Batching

传统静态批处理 vs vLLM连续批处理：

传统静态批处理	vLLM连续批处理
必须等batch内所有序列都生成完才能下一批	每次迭代完成后，如果有空闲容量，立即加入新请求
短序列要等长序列，GPU资源浪费	动态调整batch，充分利用GPU
延迟高，吞吐量低	延迟更低，吞吐量更高

vLLM 使用示例

离线推理

python

from vllm import LLM, SamplingParams

prompts = [
    "Hello, my name is",
    "The president of the United States is",
    "The capital of France is",
    "The future of AI is",
]

sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(model="facebook/opt-125m")
outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

启动OpenAI兼容API服务

bash

python -m vllm.entrypoints.openai.api_server \
    --model lmsys/vicuna-7b-v1.3 \
    --port 8000

客户端调用：

python

import openai
openai.api_key = "EMPTY"
openai.api_base = "http://localhost:8000/v1"

completion = openai.Completion.create(
    model="lmsys/vicuna-7b-v1.3",
    prompt="San Francisco is a"
)

分布式张量并行

python

from vllm import LLM
# 4 GPU张量并行
llm = LLM("facebook/opt-13b", tensor_parallel_size=4)
output = llm.generate("San Franciso is a")

优缺点分析

优点：

目前最高推理吞吐量之一，比HF Transformers高10-24倍
比HuggingFace TGI高2-3.5倍
使用简单，一行代码部署
兼容OpenAI API，易于替换

缺点：

添加自定义模型比较复杂，如果模型架构和现有差异大，集成困难
早期版本对LoRA/QLoRA等适配器支持不好，现在已有改善
默认配置在大模型上并发性能还有优化空间（LightLLM评测结论）

性能对比

在ShareGPT数据集上的吞吐量对比：

模型	HF Transformers	TGI	vLLM
LLaMA-7B (A10G)	1x	1x	24x (HF), 3.5x (TGI)
LLaMA-13B (A100)	1x	1x	8.5-15x (HF), 3.3-3.5x (TGI)

环境要求

OS: Linux
Python: 3.8+
CUDA: 11.0 - 11.8
GPU: compute capability 7.0+ (V100, T4, RTX20xx, A100, L4, 4090等)

面试常见问题

Q1: PagedAttention灵感来自哪里？解决了什么问题？

A: 灵感来自操作系统的虚拟内存分页。解决的是LLM推理中KV缓存内存碎片化和利用率低的问题，传统方法浪费60%-80%内存，PagedAttention把浪费降到4%以下，大幅提高吞吐量。

Q2: PagedAttention怎么做到低内存浪费？

A: 将KV缓存分成固定大小的块，块可以不连续存储，通过块表映射。只有每个序列最后一个块会浪费，平均浪费率低于4%。

Q3: 什么是Continuous Batching？和传统批处理有什么区别？

A: Continuous Batching是vLLM的迭代级调度机制，每次迭代完成后，如果GPU还有容量，就立即加入新请求，不需要等整个batch所有序列完成。传统批处理必须等所有完成才能下一批，短序列要等长序列，GPU利用率低。Continuous Batching提高了GPU利用率，增加了吞吐量，降低了延迟。

Q4: PagedAttention如何支持内存共享？安全吗？

A: 并行采样时多个输出序列共享同一个prompt的KV缓存，通过块表映射实现。用引用计数跟踪物理块，当多个引用都要修改时用Copy-on-Write复制副本，保证安全。共享可以把内存占用降低高达55%。

Q5: vLLM吞吐量为什么这么高？

A: 主要两个原因：1) PagedAttention大幅提高内存利用率，可以同时批处理更多序列，GPU更高利用率；2) Continuous Batching动态调度，减少GPU空闲等待，提高吞吐量。

Q6: vLLM缺点是什么？

A: 自定义模型集成复杂，早期版本对LoRA等适配器支持有限，大模型并发下相比LightLLM还有提升空间。

vLLM与PagedAttention

为什么需要vLLM

即使在昂贵的GPU硬件上，大语言模型服务仍然可能慢得惊人。主要瓶颈在于KV缓存管理低效和批处理策略不合理：

内存瓶颈：传统KV缓存连续分配导致碎片化，现有系统浪费了60%-80%的内存
动态变化：序列长度变化很大不可预测，难以有效管理内存
低利用率：传统静态批处理需要等待整个batch完成才能处理下一批，GPU利用率低

PagedAttention 原理

PagedAttention的灵感来自操作系统中的虚拟内存和分页机制。

核心思想

与传统注意力算法要求KV缓存连续存储不同，PagedAttention允许连续的Key和Value存储在不连续的内存空间中。

具体来说：

将每个序列的KV缓存划分为固定大小的块（页），每个块包含固定数量token的Key和Value
注意力计算时，通过块表查找，高效获取这些不连续的块
逻辑块通过块表映射到物理块，物理块按需分配

点击放大查看

内存利用率

PagedAttention中，只有序列最后一个块会有浪费，实际上内存浪费率低于4%，接近最优。

内存效率提高允许系统将更多序列一起批处理，大幅提高GPU利用率和吞吐量。

内存共享

PagedAttention另一个关键优势是高效的内存共享：

并行采样场景：同一个prompt生成多个输出序列，可以共享prompt的KV缓存
共享通过块表映射实现，类似于操作系统进程共享物理页
使用引用计数和Copy-on-Write机制保证安全
将并行采样和beam search的内存占用降低高达55%，吞吐量提高高达2.2倍

vLLM 架构

点击放大查看

核心特性

PagedAttention：高效KV缓存管理，接近最优内存利用率
Continuous Batching（连续批处理）：迭代级调度，每次迭代动态调整batch大小，一旦有序列完成就加入新请求
优化好的CUDA内核：底层算子高度优化
无缝集成HuggingFace模型：开箱即用，支持大多数流行模型
支持各种解码算法：贪心搜索、beam search、并行采样等
张量并行分布式推理：多GPU分摊大模型
流式输出：支持逐token返回
兼容OpenAI API：可以直接替换OpenAI端点

支持的模型

GPT-2 系列
GPTNeoX 系列（pythia、dolly-v2、stablelm等）
LLaMA 系列（Vicuna、Llama 2、Koala等）
OPT 系列

Continuous Batching

传统静态批处理 vs vLLM连续批处理：

传统静态批处理	vLLM连续批处理
必须等batch内所有序列都生成完才能下一批	每次迭代完成后，如果有空闲容量，立即加入新请求
短序列要等长序列，GPU资源浪费	动态调整batch，充分利用GPU
延迟高，吞吐量低	延迟更低，吞吐量更高

vLLM 使用示例

离线推理

python

from vllm import LLM, SamplingParams

prompts = [
    "Hello, my name is",
    "The president of the United States is",
    "The capital of France is",
    "The future of AI is",
]

sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(model="facebook/opt-125m")
outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

启动OpenAI兼容API服务

bash

python -m vllm.entrypoints.openai.api_server \
    --model lmsys/vicuna-7b-v1.3 \
    --port 8000

客户端调用：

python

import openai
openai.api_key = "EMPTY"
openai.api_base = "http://localhost:8000/v1"

completion = openai.Completion.create(
    model="lmsys/vicuna-7b-v1.3",
    prompt="San Francisco is a"
)

分布式张量并行

python

from vllm import LLM
# 4 GPU张量并行
llm = LLM("facebook/opt-13b", tensor_parallel_size=4)
output = llm.generate("San Franciso is a")

优缺点分析

优点：

目前最高推理吞吐量之一，比HF Transformers高10-24倍
比HuggingFace TGI高2-3.5倍
使用简单，一行代码部署
兼容OpenAI API，易于替换

缺点：

添加自定义模型比较复杂，如果模型架构和现有差异大，集成困难
早期版本对LoRA/QLoRA等适配器支持不好，现在已有改善
默认配置在大模型上并发性能还有优化空间（LightLLM评测结论）

性能对比

在ShareGPT数据集上的吞吐量对比：

模型	HF Transformers	TGI	vLLM
LLaMA-7B (A10G)	1x	1x	24x (HF), 3.5x (TGI)
LLaMA-13B (A100)	1x	1x	8.5-15x (HF), 3.3-3.5x (TGI)

环境要求

OS: Linux
Python: 3.8+
CUDA: 11.0 - 11.8
GPU: compute capability 7.0+ (V100, T4, RTX20xx, A100, L4, 4090等)

面试常见问题

Q1: PagedAttention灵感来自哪里？解决了什么问题？

Q2: PagedAttention怎么做到低内存浪费？

A: 将KV缓存分成固定大小的块，块可以不连续存储，通过块表映射。只有每个序列最后一个块会浪费，平均浪费率低于4%。

Q3: 什么是Continuous Batching？和传统批处理有什么区别？

Q4: PagedAttention如何支持内存共享？安全吗？

Q5: vLLM吞吐量为什么这么高？

Q6: vLLM缺点是什么？

A: 自定义模型集成复杂，早期版本对LoRA等适配器支持有限，大模型并发下相比LightLLM还有提升空间。

大模型面试

大模型面试

vLLM与PagedAttention

vLLM与PagedAttention

为什么需要vLLM

PagedAttention 原理

核心思想

内存利用率

内存共享

vLLM 架构

核心特性

支持的模型

Continuous Batching

vLLM 使用示例

离线推理

启动OpenAI兼容API服务

分布式张量并行

优缺点分析

性能对比

环境要求

面试常见问题

Q1: PagedAttention灵感来自哪里？解决了什么问题？

Q2: PagedAttention怎么做到低内存浪费？

Q3: 什么是Continuous Batching？和传统批处理有什么区别？

Q4: PagedAttention如何支持内存共享？安全吗？

Q5: vLLM吞吐量为什么这么高？

Q6: vLLM缺点是什么？

vLLM与PagedAttention

vLLM与PagedAttention

为什么需要vLLM

PagedAttention 原理

核心思想

内存利用率

内存共享

vLLM 架构

核心特性

支持的模型

Continuous Batching

vLLM 使用示例

离线推理

启动OpenAI兼容API服务

分布式张量并行

优缺点分析

性能对比

环境要求

面试常见问题

Q1: PagedAttention灵感来自哪里？解决了什么问题？

Q2: PagedAttention怎么做到低内存浪费？

Q3: 什么是Continuous Batching？和传统批处理有什么区别？

Q4: PagedAttention如何支持内存共享？安全吗？

Q5: vLLM吞吐量为什么这么高？

Q6: vLLM缺点是什么？