多轮对话与记忆机制

概述

在多轮对话和Agent系统中，记忆机制是核心组件之一。大模型的上下文窗口有限，如何高效管理长期记忆，让AI在多轮对话中保持上下文连贯性，是一个关键问题。

短期记忆 vs 长期记忆

在LLM Agent架构中，记忆通常分为两类：

记忆类型	存储位置	特点	用途
短期记忆	模型上下文（Context Window）	速度快，能直接被模型读取	保存最近几轮对话
长期记忆	外部存储（向量库/数据库）	容量大，需要检索召回	保存历史关键信息

大模型本身的上下文学习就是利用了短期记忆，而长期记忆通常需要借助外部向量存储和检索来实现。

点击放大查看

常见记忆优化策略

LangChain等Agent框架提供了多种记忆实现方式，针对不同场景可以选择不同策略。

1. ConversationBufferMemory — 全量历史对话

原理：保留全部历史对话，每次都输入给模型。

python

from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()
memory.save_context({"input": "你好"}, {"output": "怎么了"})
variables = memory.load_memory_variables({})

适用场景：对话轮次少，总token数不超过上下文窗口的场景，比如电信客服。

优点：信息完整，不会丢失细节缺点：token数增长快，很快耗尽上下文窗口，增加推理成本

2. ConversationBufferWindowMemory — 滑动窗口缓存

原理：只保留最近k轮对话，超过窗口的历史对话直接丢弃。

python

from langchain.memory import ConversationBufferWindowMemory
# 只保留最后1次互动的记忆
memory = ConversationBufferWindowMemory(k=1)

适用场景：只需要关注最近几轮对话，较早对话不重要的场景，比如电商商品咨询。

优点：token数可控，推理速度快缺点：丢失早期对话中的关键信息

3. ConversationEntityMemory — 实体记忆抽取

原理：从对话中提取关键实体及其关系，只保留实体信息而不是原始对话。

python

from langchain.memory import ConversationEntityMemory
llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)
memory = ConversationEntityMemory(llm=llm)
memory.save_context({"input": "公众号《LLM应用全栈开发》的作者是莫尔索"}, 
                    {"output": "是吗，这个公众号是干嘛的"})
print(memory.load_memory_variables({"input": "莫尔索是谁？"}))
# 输出：{'entities': {'莫尔索': '《LLM应用全栈开发》的作者。'}}

适用场景：对话围绕特定人物、案件、实体展开，需要记住关键实体信息，比如法律咨询。

优点：相比原始对话，token占用少，保留关键信息缺点：需要LLM提取实体，增加额外计算开销

4. ConversationKGMemory — 知识图谱记忆

原理：将对话中的实体和关系提取出来，构建知识图谱保存记忆。

python

from langchain.memory import ConversationKGMemory
from langchain.llms import OpenAI
llm = OpenAI(temperature=0)
memory = ConversationKGMemory(llm=llm)
memory.save_context({"input": "小李是程序员"}, {"output": "知道了，小李是程序员"})
memory.save_context({"input": "莫尔索是小李的笔名"}, {"output": "明白，莫尔索是小李的笔名"})
variables = memory.load_memory_variables({"input": "告诉我关于小李的信息"})
print(variables)
# 输出: {'history': 'On 小李: 小李 is 程序员. 小李 的笔名 莫尔索.'}

适用场景：医疗咨询、知识问答，需要记住多个实体之间关系。

优点：结构化存储记忆，关系清晰，可推理缺点：构建和维护知识图谱开销大

5. ConversationSummaryMemory — 摘要记忆

原理：对历史对话进行阶段性总结，只保存总结摘要，不保存原始对话。

适用场景：教育辅导、长期咨询，需要理解整体上下文但不需要保留每轮原始对话。

优点：大幅压缩token数，保留整体上下文信息缺点：可能丢失细节，摘要可能引入错误

6. ConversationSummaryBufferMemory — 摘要+滑动窗口

原理：保留最近几轮对话的完整内容，对较早的对话进行压缩总结。

[较早对话摘要] ... [最近k轮完整对话]

适用场景：长期技术支持问题排障，用户分多次对话提供信息，既需要最近详细信息，也需要历史问题摘要。

优点：兼顾最新细节和长期上下文，token占用可控缺点：实现复杂度稍高

7. ConversationTokenBufferMemory — Token限制缓冲

原理：按token数限制，保留最新的token不超过限制，自动淘汰最早的对话。

适用场景：金融咨询，需要聚焦最近和最关键的问题，避免token溢出。

8. VectorStoreRetrieverMemory — 向量检索记忆

原理：把所有对话都存在向量数据库，根据当前问题的相似度检索最相关的历史对话。

python

from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.memory import VectorStoreRetrieverMemory

vectorstore = Chroma(embedding_function=OpenAIEmbeddings())
retriever = vectorstore.as_retriever(search_kwargs=dict(k=1))
memory = VectorStoreRetrieverMemory(retriever=retriever)

memory.save_context({"input": "我喜欢吃火锅"}, {"output": "听起来很好吃"})
memory.save_context({"input": "我不喜欢看摔跤比赛"}, {"output": "我也是"})

适用场景：需要从大量历史对话中召回和当前问题相关的内容，比如新闻问答、长期文档对话。

优点：存储容量几乎无限，只召回相关信息，token效率高缺点：依赖嵌入模型和检索质量，可能漏检相关信息

上下文窗口管理

核心问题

大模型的上下文窗口（context window）大小有限，比如GPT-3.5是4k/16k，GPT-4是8k/32k/128k。多轮对话很快会占满上下文，需要有效的管理策略。

常见管理策略

策略	思路	适用场景
滑动窗口	只保留最近N轮	短对话，只需要最近上下文
摘要法	压缩历史为摘要	长对话，保留整体信息
实体法	只保留关键实体	围绕实体的对话
检索法	全量存储，按需召回	非常长的对话/文档
混合法	最新完整对话 + 历史摘要 + 检索召回	大多数实际场景

压缩与裁剪技巧

重要性排序：给不同对话片段打分，保留高分重要片段
冗余去除：去掉重复、无关内容
分层存储：短期在上下文，中期在摘要，长期在向量库

面试常见问题

**LLM Agent中的短期记忆和长期记忆有什么区别？
- 短期记忆存储在模型上下文窗口中，能直接被模型读取，但容量有限，适合保存最近对话
- 长期记忆存储在外部向量库/数据库，容量几乎无限，需要检索召回，适合保存历史关键信息
**LangChain中有哪些常见的记忆类型？各自适用什么场景？
- ConversationBufferMemory：全量保存，适合短对话，信息完整但token增长快
- ConversationBufferWindowMemory：滑动窗口，只保留最近k轮，适合只关心最近对话的场景
- ConversationEntityMemory：抽取实体记忆，适合围绕实体的对话如法律咨询
- ConversationSummaryMemory：摘要压缩，适合长对话保留整体信息
- ConversationSummaryBufferMemory：摘要+最近完整对话，兼顾历史和最新细节，适合长期对话
- VectorStoreRetrieverMemory：向量检索，适合大量历史中召回相关内容，容量几乎无限
**为什么需要记忆管理？直接把所有历史都放上下文不行吗？
- 大模型上下文窗口大小有限，多轮对话很快会超出限制
- token数越多，推理速度越慢，成本越高
- 很多历史信息和当前问题无关，输入无用信息会干扰模型
**如何在长时间多轮对话中保持长期记忆？
- 使用分层存储：最近对话放上下文，较早对话做摘要，重要信息存入向量库做长期检索
- 根据当前问题从长期记忆中召回相关信息，拼接到上下文输入给模型
- 常用方案是：最新k轮完整对话 + 历史对话摘要 + 检索召回的相关记忆
**基于检索的记忆有什么优缺点？
- 优点：存储容量几乎不受限，只召回和当前问题相关的信息，token效率高
- 缺点：依赖嵌入模型和检索质量，如果嵌入不好可能召回不相关内容，漏检重要信息
**什么是实体记忆？它适合什么场景？
- 实体记忆从对话中提取关键实体及其属性和关系，只存储结构化的实体信息，不存储原始对话
- 适合围绕特定实体展开的对话，比如法律咨询、医疗咨询，能记住关键信息又节省token

多轮对话与记忆机制

概述

短期记忆 vs 长期记忆

在LLM Agent架构中，记忆通常分为两类：

记忆类型	存储位置	特点	用途
短期记忆	模型上下文（Context Window）	速度快，能直接被模型读取	保存最近几轮对话
长期记忆	外部存储（向量库/数据库）	容量大，需要检索召回	保存历史关键信息

大模型本身的上下文学习就是利用了短期记忆，而长期记忆通常需要借助外部向量存储和检索来实现。

点击放大查看

常见记忆优化策略

LangChain等Agent框架提供了多种记忆实现方式，针对不同场景可以选择不同策略。

1. ConversationBufferMemory — 全量历史对话

原理：保留全部历史对话，每次都输入给模型。

python

from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory()
memory.save_context({"input": "你好"}, {"output": "怎么了"})
variables = memory.load_memory_variables({})

适用场景：对话轮次少，总token数不超过上下文窗口的场景，比如电信客服。

优点：信息完整，不会丢失细节缺点：token数增长快，很快耗尽上下文窗口，增加推理成本

2. ConversationBufferWindowMemory — 滑动窗口缓存

原理：只保留最近k轮对话，超过窗口的历史对话直接丢弃。

python

from langchain.memory import ConversationBufferWindowMemory
# 只保留最后1次互动的记忆
memory = ConversationBufferWindowMemory(k=1)

适用场景：只需要关注最近几轮对话，较早对话不重要的场景，比如电商商品咨询。

优点：token数可控，推理速度快缺点：丢失早期对话中的关键信息

3. ConversationEntityMemory — 实体记忆抽取

原理：从对话中提取关键实体及其关系，只保留实体信息而不是原始对话。

python

from langchain.memory import ConversationEntityMemory
llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)
memory = ConversationEntityMemory(llm=llm)
memory.save_context({"input": "公众号《LLM应用全栈开发》的作者是莫尔索"}, 
                    {"output": "是吗，这个公众号是干嘛的"})
print(memory.load_memory_variables({"input": "莫尔索是谁？"}))
# 输出：{'entities': {'莫尔索': '《LLM应用全栈开发》的作者。'}}

适用场景：对话围绕特定人物、案件、实体展开，需要记住关键实体信息，比如法律咨询。

优点：相比原始对话，token占用少，保留关键信息缺点：需要LLM提取实体，增加额外计算开销

4. ConversationKGMemory — 知识图谱记忆

原理：将对话中的实体和关系提取出来，构建知识图谱保存记忆。

python

from langchain.memory import ConversationKGMemory
from langchain.llms import OpenAI
llm = OpenAI(temperature=0)
memory = ConversationKGMemory(llm=llm)
memory.save_context({"input": "小李是程序员"}, {"output": "知道了，小李是程序员"})
memory.save_context({"input": "莫尔索是小李的笔名"}, {"output": "明白，莫尔索是小李的笔名"})
variables = memory.load_memory_variables({"input": "告诉我关于小李的信息"})
print(variables)
# 输出: {'history': 'On 小李: 小李 is 程序员. 小李 的笔名 莫尔索.'}

适用场景：医疗咨询、知识问答，需要记住多个实体之间关系。

优点：结构化存储记忆，关系清晰，可推理缺点：构建和维护知识图谱开销大

5. ConversationSummaryMemory — 摘要记忆

原理：对历史对话进行阶段性总结，只保存总结摘要，不保存原始对话。

适用场景：教育辅导、长期咨询，需要理解整体上下文但不需要保留每轮原始对话。

优点：大幅压缩token数，保留整体上下文信息缺点：可能丢失细节，摘要可能引入错误

6. ConversationSummaryBufferMemory — 摘要+滑动窗口

原理：保留最近几轮对话的完整内容，对较早的对话进行压缩总结。

[较早对话摘要] ... [最近k轮完整对话]

适用场景：长期技术支持问题排障，用户分多次对话提供信息，既需要最近详细信息，也需要历史问题摘要。

优点：兼顾最新细节和长期上下文，token占用可控缺点：实现复杂度稍高

7. ConversationTokenBufferMemory — Token限制缓冲

原理：按token数限制，保留最新的token不超过限制，自动淘汰最早的对话。

适用场景：金融咨询，需要聚焦最近和最关键的问题，避免token溢出。

8. VectorStoreRetrieverMemory — 向量检索记忆

原理：把所有对话都存在向量数据库，根据当前问题的相似度检索最相关的历史对话。

python

from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.memory import VectorStoreRetrieverMemory

vectorstore = Chroma(embedding_function=OpenAIEmbeddings())
retriever = vectorstore.as_retriever(search_kwargs=dict(k=1))
memory = VectorStoreRetrieverMemory(retriever=retriever)

memory.save_context({"input": "我喜欢吃火锅"}, {"output": "听起来很好吃"})
memory.save_context({"input": "我不喜欢看摔跤比赛"}, {"output": "我也是"})

适用场景：需要从大量历史对话中召回和当前问题相关的内容，比如新闻问答、长期文档对话。

优点：存储容量几乎无限，只召回相关信息，token效率高缺点：依赖嵌入模型和检索质量，可能漏检相关信息

上下文窗口管理

核心问题

大模型的上下文窗口（context window）大小有限，比如GPT-3.5是4k/16k，GPT-4是8k/32k/128k。多轮对话很快会占满上下文，需要有效的管理策略。

常见管理策略

策略	思路	适用场景
滑动窗口	只保留最近N轮	短对话，只需要最近上下文
摘要法	压缩历史为摘要	长对话，保留整体信息
实体法	只保留关键实体	围绕实体的对话
检索法	全量存储，按需召回	非常长的对话/文档
混合法	最新完整对话 + 历史摘要 + 检索召回	大多数实际场景

压缩与裁剪技巧

重要性排序：给不同对话片段打分，保留高分重要片段
冗余去除：去掉重复、无关内容
分层存储：短期在上下文，中期在摘要，长期在向量库

面试常见问题

**LLM Agent中的短期记忆和长期记忆有什么区别？
- 短期记忆存储在模型上下文窗口中，能直接被模型读取，但容量有限，适合保存最近对话
- 长期记忆存储在外部向量库/数据库，容量几乎无限，需要检索召回，适合保存历史关键信息
**LangChain中有哪些常见的记忆类型？各自适用什么场景？
- ConversationBufferMemory：全量保存，适合短对话，信息完整但token增长快
- ConversationBufferWindowMemory：滑动窗口，只保留最近k轮，适合只关心最近对话的场景
- ConversationEntityMemory：抽取实体记忆，适合围绕实体的对话如法律咨询
- ConversationSummaryMemory：摘要压缩，适合长对话保留整体信息
- ConversationSummaryBufferMemory：摘要+最近完整对话，兼顾历史和最新细节，适合长期对话
- VectorStoreRetrieverMemory：向量检索，适合大量历史中召回相关内容，容量几乎无限
**为什么需要记忆管理？直接把所有历史都放上下文不行吗？
- 大模型上下文窗口大小有限，多轮对话很快会超出限制
- token数越多，推理速度越慢，成本越高
- 很多历史信息和当前问题无关，输入无用信息会干扰模型
**如何在长时间多轮对话中保持长期记忆？
- 使用分层存储：最近对话放上下文，较早对话做摘要，重要信息存入向量库做长期检索
- 根据当前问题从长期记忆中召回相关信息，拼接到上下文输入给模型
- 常用方案是：最新k轮完整对话 + 历史对话摘要 + 检索召回的相关记忆
**基于检索的记忆有什么优缺点？
- 优点：存储容量几乎不受限，只召回和当前问题相关的信息，token效率高
- 缺点：依赖嵌入模型和检索质量，如果嵌入不好可能召回不相关内容，漏检重要信息
**什么是实体记忆？它适合什么场景？
- 实体记忆从对话中提取关键实体及其属性和关系，只存储结构化的实体信息，不存储原始对话
- 适合围绕特定实体展开的对话，比如法律咨询、医疗咨询，能记住关键信息又节省token

大模型面试

大模型面试

多轮对话与记忆机制

多轮对话与记忆机制

概述

短期记忆 vs 长期记忆

常见记忆优化策略

1. ConversationBufferMemory — 全量历史对话

2. ConversationBufferWindowMemory — 滑动窗口缓存

3. ConversationEntityMemory — 实体记忆抽取

4. ConversationKGMemory — 知识图谱记忆

5. ConversationSummaryMemory — 摘要记忆

6. ConversationSummaryBufferMemory — 摘要+滑动窗口

7. ConversationTokenBufferMemory — Token限制缓冲

8. VectorStoreRetrieverMemory — 向量检索记忆

上下文窗口管理

核心问题

常见管理策略

压缩与裁剪技巧

面试常见问题

多轮对话与记忆机制

多轮对话与记忆机制

概述

短期记忆 vs 长期记忆

常见记忆优化策略

1. ConversationBufferMemory — 全量历史对话

2. ConversationBufferWindowMemory — 滑动窗口缓存

3. ConversationEntityMemory — 实体记忆抽取

4. ConversationKGMemory — 知识图谱记忆

5. ConversationSummaryMemory — 摘要记忆

6. ConversationSummaryBufferMemory — 摘要+滑动窗口

7. ConversationTokenBufferMemory — Token限制缓冲

8. VectorStoreRetrieverMemory — 向量检索记忆

上下文窗口管理

核心问题

常见管理策略

压缩与裁剪技巧

面试常见问题