41-LangChain核心组件

LangChain 是什么

LangChain 是一个强大的框架，旨在帮助开发人员使用语言模型构建端到端的应用程序。它提供了一套工具、组件和接口，可简化由大型语言模型支持的应用程序开发过程，可以轻松管理与语言模型的交互，将多个组件链接在一起，并集成额外的资源，例如 API 和数据库。

核心概念

LangChain 的核心概念包括：

1. Components（组件）和 Chains（链）

Component：模块化的构建块，可以组合起来创建强大的应用程序；
Chain：组合在一起以完成特定任务的一系列 Components（或其他 Chain）。

一个典型的 Chain 可能包括 Prompt 模板、一个语言模型和一个输出解析器，它们一起工作处理用户输入、生成响应并处理输出。

2. Prompt Templates and Values

Prompt Template：负责创建 PromptValue，这是最终传递给语言模型的内容；
作用：有助于将用户输入和其他动态信息转换为适合语言模型格式的提示；
PromptValues 是具有方法的类，可以转换为每个模型类型期望的确切输入类型（文本或聊天消息）。

3. Example Selectors

当想要在 Prompts 中动态包含示例时，Example Selectors 很有用。他们接受用户输入并返回一个示例列表以在提示中使用，使其更强大和特定于上下文。

4. Output Parsers

作用：负责将语言模型响应构建为更有用的格式；
主要做两件事：
1. 提供格式化指令给语言模型；
2. 将语言模型的响应解析为结构化格式；使得在应用程序中处理输出数据更加容易。

5. Indexes and Retrievers

Index：一种组织文档的方式，使语言模型更容易与它们交互；
Retrievers：用于获取相关文档并将它们与语言模型组合的接口；

LangChain 提供了处理不同类型索引和检索器的工具和功能，例如矢量数据库和文本拆分器。

6. Chat Message History

作用：负责记住所有以前的聊天交互数据，可以将这些交互数据传递回模型、汇总或以其他方式组合；
优点：有助于维护上下文并提高模型对对话的理解。

7. Agents and Toolkits

Agent：在 LangChain 中驱动决策制定的实体。它可以访问一套工具，可以根据用户输入决定调用哪个工具；
Toolkits：一组工具，当它们一起使用时，可以完成特定的任务。代理执行器负责使用适当的工具运行代理。

通过理解和利用这些核心概念，你可以使用 LangChain 构建适应性强、高效且能够处理复杂用例的高级语言模型应用程序。

LangChain 中的模型类型

LangChain 中的模型主要分为三类：

LLM（大型语言模型）：这些模型将文本字符串作为输入并返回文本字符串作为输出。它们是许多语言模型应用程序的支柱。
聊天模型 (Chat Model)：聊天模型由语言模型支持，但具有更结构化的 API。他们将聊天消息列表作为输入并返回聊天消息。这使得管理对话历史记录和维护上下文变得容易。
文本嵌入模型(Text Embedding Models)：这些模型将文本作为输入并返回表示文本语义的浮点列表。这些嵌入可用于文档检索、聚类和相似性比较等任务。

LangChain 主要特点

LangChain 旨在为六个主要领域的开发人员提供支持：

LLM 和提示：LangChain 使管理提示、优化它们以及为所有 LLM 创建通用界面变得容易，还包括一些用于处理 LLM 的便捷实用程序。
链 (Chain)：这些是对 LLM 或其他实用程序的调用序列。LangChain 为链提供标准接口，与各种工具集成，为流行应用提供端到端的链。
数据增强生成：LangChain 使链能够与外部数据源交互，收集生成步骤需要的数据。例如，它可以帮助总结长文本或使用特定数据源回答问题。
Agents：Agents 让 LLM 做出有关行动的决定，采取这些行动，检查结果，并继续前进直到完成。LangChain 提供了代理的标准接口，多种代理可供选择，以及端到端的代理示例。
内存：LangChain 有一个标准的内存接口，有助于维护链或代理调用之间的状态。它还提供了一系列内存实现和使用内存的链或代理的示例。
评估：很难用传统指标评估生成模型。这就是为什么 LangChain 提供提示和链来帮助开发者自己使用 LLM 评估他们的模型。

LCEL (LangChain Expression Language)

LCEL 是 LangChain 新一代的表达式语言，让你能够以声明式的方式组合 LangChain 的组件，变得更加灵活和易于组合。

核心优势：

清晰的组合语法，更容易把多个组件拼在一起；
原生支持流式输出；
内置异步支持；
可以自动优化并行执行；
更好的错误处理和可观察性。

最简 RAG 示例：

python

from langchain.chat_models import ChatOpenAI
from langchain.schema.runnable import RunnablePassthrough

llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)
rag_chain = (
    {"context": retriever, "question": RunnablePassthrough()} 
    | rag_prompt 
    | llm
)
rag_chain.invoke("What is Task Decomposition?")

LangChain 使用场景

LangChain 可以用来构建多种类型的应用：

针对特定文档的问答：根据给定的文档回答问题，使用这些文档中的信息来创建答案，这是 RAG 最典型的场景；
聊天机器人：构建可以利用 LLM 功能生成文本的聊天机器人；
Agents：开发可以决定行动、采取这些行动、观察结果并继续执行直到完成的代理。

LangChain 存在的问题

1. 低效的令牌使用

Langchain 的令牌计数效率很低，对于小数据集来说尤其明显。 解决方案：使用 Tiktoken 更高效地处理令牌计数。

2. 文档问题

LangChain 文档不充分且经常不准确，误导性的文档可能导致开发中代价高昂的错误，还有 404 页面。这和 LangChain 快速迭代有关。

3. 过多概念容易混淆，过多包装函数

LangChain 有很多概念容易混淆，很多函数只是标准 Python 函数的简单包装，增加了不必要的间接层。

4. 行为不一致并且隐藏细节

LangChain 有时候会隐藏重要细节，行为不一致，可能导致生产系统出现意想不到的问题。例如 ConversationRetrievalChain 会重新措辞问题，有时候会破坏上下文。

5. 缺乏标准的可互操作数据类型

缺乏表示数据的标准方法，这种一致性的缺乏可能会阻碍与其他框架和工具的集成，使其在更广泛的机器学习工具生态系统中工作具有挑战性。

LangChain 替代方案

LlamaIndex：一个数据框架，可以很容易地将大型语言模型连接到自定义数据源，可用于存储、查询和索引数据，还提供了各种数据可视化和分析工具；
Deepset Haystack：开源框架，用于使用大型语言模型构建搜索和问答应用，基于 Hugging Face Transformers，提供了多种查询和理解文本数据的工具。

面试常见问题

1. 什么是 LangChain？它的核心组件有哪些？

回答要点：

LangChain 是帮助构建 LLM 应用的开发框架；
核心组件包括 Prompts、LLMs/chat models、embeddings、Chains、Indexes/Retrievers、Memory、Agents/Tools 等。

2. LCEL 是什么？为什么需要它？

回答要点：

LCEL 是 LangChain Expression Language；
让组合组件更声明式、更灵活；
原生支持流式、异步、并行优化，开发体验更好。

3. LangChain 常见问题有哪些？

回答要点：

令牌使用效率低；
文档不完善，经常有错误；
过度包装，很多简单函数套了多层；
行为不一致，隐藏细节，生产环境容易出问题；
缺乏统一数据类型，和其他框架集成难。

4. 在 RAG 应用中，LangChain 一般扮演什么角色？

回答要点：

文档加载：支持多种格式文档加载；
文本分块：提供多种分块策略；
向量存储：对接多种向量数据库；
检索：提供检索器和多种检索策略；
链构建：方便把检索和 LLM 生成拼接成端到端流程；
对话记忆：支持多轮对话 RAG。

41-LangChain核心组件

LangChain 是什么

核心概念

LangChain 的核心概念包括：

1. Components（组件）和 Chains（链）

Component：模块化的构建块，可以组合起来创建强大的应用程序；
Chain：组合在一起以完成特定任务的一系列 Components（或其他 Chain）。

一个典型的 Chain 可能包括 Prompt 模板、一个语言模型和一个输出解析器，它们一起工作处理用户输入、生成响应并处理输出。

2. Prompt Templates and Values

Prompt Template：负责创建 PromptValue，这是最终传递给语言模型的内容；
作用：有助于将用户输入和其他动态信息转换为适合语言模型格式的提示；
PromptValues 是具有方法的类，可以转换为每个模型类型期望的确切输入类型（文本或聊天消息）。

3. Example Selectors

当想要在 Prompts 中动态包含示例时，Example Selectors 很有用。他们接受用户输入并返回一个示例列表以在提示中使用，使其更强大和特定于上下文。

4. Output Parsers

作用：负责将语言模型响应构建为更有用的格式；
主要做两件事：
1. 提供格式化指令给语言模型；
2. 将语言模型的响应解析为结构化格式；使得在应用程序中处理输出数据更加容易。

5. Indexes and Retrievers

Index：一种组织文档的方式，使语言模型更容易与它们交互；
Retrievers：用于获取相关文档并将它们与语言模型组合的接口；

LangChain 提供了处理不同类型索引和检索器的工具和功能，例如矢量数据库和文本拆分器。

6. Chat Message History

作用：负责记住所有以前的聊天交互数据，可以将这些交互数据传递回模型、汇总或以其他方式组合；
优点：有助于维护上下文并提高模型对对话的理解。

7. Agents and Toolkits

Agent：在 LangChain 中驱动决策制定的实体。它可以访问一套工具，可以根据用户输入决定调用哪个工具；
Toolkits：一组工具，当它们一起使用时，可以完成特定的任务。代理执行器负责使用适当的工具运行代理。

通过理解和利用这些核心概念，你可以使用 LangChain 构建适应性强、高效且能够处理复杂用例的高级语言模型应用程序。

LangChain 中的模型类型

LangChain 中的模型主要分为三类：

LLM（大型语言模型）：这些模型将文本字符串作为输入并返回文本字符串作为输出。它们是许多语言模型应用程序的支柱。
聊天模型 (Chat Model)：聊天模型由语言模型支持，但具有更结构化的 API。他们将聊天消息列表作为输入并返回聊天消息。这使得管理对话历史记录和维护上下文变得容易。
文本嵌入模型(Text Embedding Models)：这些模型将文本作为输入并返回表示文本语义的浮点列表。这些嵌入可用于文档检索、聚类和相似性比较等任务。

LangChain 主要特点

LangChain 旨在为六个主要领域的开发人员提供支持：

LLM 和提示：LangChain 使管理提示、优化它们以及为所有 LLM 创建通用界面变得容易，还包括一些用于处理 LLM 的便捷实用程序。
链 (Chain)：这些是对 LLM 或其他实用程序的调用序列。LangChain 为链提供标准接口，与各种工具集成，为流行应用提供端到端的链。
数据增强生成：LangChain 使链能够与外部数据源交互，收集生成步骤需要的数据。例如，它可以帮助总结长文本或使用特定数据源回答问题。
Agents：Agents 让 LLM 做出有关行动的决定，采取这些行动，检查结果，并继续前进直到完成。LangChain 提供了代理的标准接口，多种代理可供选择，以及端到端的代理示例。
内存：LangChain 有一个标准的内存接口，有助于维护链或代理调用之间的状态。它还提供了一系列内存实现和使用内存的链或代理的示例。
评估：很难用传统指标评估生成模型。这就是为什么 LangChain 提供提示和链来帮助开发者自己使用 LLM 评估他们的模型。

LCEL (LangChain Expression Language)

LCEL 是 LangChain 新一代的表达式语言，让你能够以声明式的方式组合 LangChain 的组件，变得更加灵活和易于组合。

核心优势：

清晰的组合语法，更容易把多个组件拼在一起；
原生支持流式输出；
内置异步支持；
可以自动优化并行执行；
更好的错误处理和可观察性。

最简 RAG 示例：

python

from langchain.chat_models import ChatOpenAI
from langchain.schema.runnable import RunnablePassthrough

llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)
rag_chain = (
    {"context": retriever, "question": RunnablePassthrough()} 
    | rag_prompt 
    | llm
)
rag_chain.invoke("What is Task Decomposition?")

LangChain 使用场景

LangChain 可以用来构建多种类型的应用：

针对特定文档的问答：根据给定的文档回答问题，使用这些文档中的信息来创建答案，这是 RAG 最典型的场景；
聊天机器人：构建可以利用 LLM 功能生成文本的聊天机器人；
Agents：开发可以决定行动、采取这些行动、观察结果并继续执行直到完成的代理。

LangChain 存在的问题

1. 低效的令牌使用

Langchain 的令牌计数效率很低，对于小数据集来说尤其明显。 解决方案：使用 Tiktoken 更高效地处理令牌计数。

2. 文档问题

LangChain 文档不充分且经常不准确，误导性的文档可能导致开发中代价高昂的错误，还有 404 页面。这和 LangChain 快速迭代有关。

3. 过多概念容易混淆，过多包装函数

LangChain 有很多概念容易混淆，很多函数只是标准 Python 函数的简单包装，增加了不必要的间接层。

4. 行为不一致并且隐藏细节

5. 缺乏标准的可互操作数据类型

缺乏表示数据的标准方法，这种一致性的缺乏可能会阻碍与其他框架和工具的集成，使其在更广泛的机器学习工具生态系统中工作具有挑战性。

LangChain 替代方案

LlamaIndex：一个数据框架，可以很容易地将大型语言模型连接到自定义数据源，可用于存储、查询和索引数据，还提供了各种数据可视化和分析工具；
Deepset Haystack：开源框架，用于使用大型语言模型构建搜索和问答应用，基于 Hugging Face Transformers，提供了多种查询和理解文本数据的工具。

面试常见问题

1. 什么是 LangChain？它的核心组件有哪些？

回答要点：

LangChain 是帮助构建 LLM 应用的开发框架；
核心组件包括 Prompts、LLMs/chat models、embeddings、Chains、Indexes/Retrievers、Memory、Agents/Tools 等。

2. LCEL 是什么？为什么需要它？

回答要点：

LCEL 是 LangChain Expression Language；
让组合组件更声明式、更灵活；
原生支持流式、异步、并行优化，开发体验更好。

3. LangChain 常见问题有哪些？

回答要点：

令牌使用效率低；
文档不完善，经常有错误；
过度包装，很多简单函数套了多层；
行为不一致，隐藏细节，生产环境容易出问题；
缺乏统一数据类型，和其他框架集成难。

4. 在 RAG 应用中，LangChain 一般扮演什么角色？

回答要点：

文档加载：支持多种格式文档加载；
文本分块：提供多种分块策略；
向量存储：对接多种向量数据库；
检索：提供检索器和多种检索策略；
链构建：方便把检索和 LLM 生成拼接成端到端流程；
对话记忆：支持多轮对话 RAG。

大模型面试

大模型面试

41-LangChain核心组件

41-LangChain核心组件

LangChain 是什么

核心概念

1. Components（组件）和 Chains（链）

2. Prompt Templates and Values

3. Example Selectors

4. Output Parsers

5. Indexes and Retrievers

6. Chat Message History

7. Agents and Toolkits

LangChain 中的模型类型

LangChain 主要特点

LCEL (LangChain Expression Language)

LangChain 使用场景

LangChain 存在的问题

1. 低效的令牌使用

2. 文档问题

3. 过多概念容易混淆，过多包装函数

4. 行为不一致并且隐藏细节

5. 缺乏标准的可互操作数据类型

LangChain 替代方案

面试常见问题

1. 什么是 LangChain？它的核心组件有哪些？

2. LCEL 是什么？为什么需要它？

3. LangChain 常见问题有哪些？

4. 在 RAG 应用中，LangChain 一般扮演什么角色？

41-LangChain核心组件

41-LangChain核心组件

LangChain 是什么

核心概念

1. Components（组件）和 Chains（链）

2. Prompt Templates and Values

3. Example Selectors

4. Output Parsers

5. Indexes and Retrievers

6. Chat Message History

7. Agents and Toolkits

LangChain 中的模型类型

LangChain 主要特点

LCEL (LangChain Expression Language)

LangChain 使用场景

LangChain 存在的问题

1. 低效的令牌使用

2. 文档问题

3. 过多概念容易混淆，过多包装函数

4. 行为不一致并且隐藏细节

5. 缺乏标准的可互操作数据类型

LangChain 替代方案

面试常见问题

1. 什么是 LangChain？它的核心组件有哪些？

2. LCEL 是什么？为什么需要它？

3. LangChain 常见问题有哪些？

4. 在 RAG 应用中，LangChain 一般扮演什么角色？