向量检索

概述

向量检索（Vector Retrieval） 也叫近似最近邻搜索（Approximate Nearest Neighbor Search, ANN），目标是在大规模向量集合中，快速找到与查询向量最相似的前k个向量。

向量检索是RAG（检索增强生成）、推荐系统、相似度搜索等应用的核心技术，随着大模型和向量数据库的发展，变得越来越重要。

向量检索原理

问题定义

给定一个向量库 X = {x1, x2, ..., xn}，每个xi是d维向量。对于查询向量q，找到与q距离最近（相似度最高）的k个向量。

相似度度量

常用的相似度/距离度量：

欧氏距离（L2距离）：衡量空间中的几何距离
余弦相似度：衡量向量方向的一致性，忽略大小，常用于词向量/句向量相似度
内积：余弦相似度归一化后等价于内积相似度

精确检索 vs 近似检索

精确检索：线性扫描所有向量，计算与查询的相似度，返回top-k。结果准确，但时间复杂度O(nd)，n很大时太慢，无法用于大规模向量库。
近似检索（ANN）：牺牲一点精度来换取巨大的速度提升，能处理亿级甚至十亿级向量库的快速检索，实际应用中几乎都用近似检索。

近似最近邻（ANN）算法

Annoy

Annoy（Approximate Nearest Neighbors Oh Yeah） 是Spotify开源的高维空间近似最近邻搜索库。

核心思想：

构建多个随机二叉搜索树
查询时遍历树，收集候选节点，最后排序返回最近邻
查询时间复杂度O(log n)

构建过程：

随机选两个中心点，将空间分成两部分
递归对每个子空间继续分割，直到每个节点包含不多于一定数量的向量
构建多棵这样的树，森林提高精度

参数调优：

n_trees：树的数量，构建时指定。值越大精度越高，但索引更大，构建慢
search_k：搜索时检查的节点数量，值越大精度越高，但搜索越慢。默认为 n_trees * n

代码示例：

python

from annoy import AnnoyIndex
import random

f = 40  # 向量维度
t = AnnoyIndex(f, 'angular')  # angular表示余弦距离
for i in range(1000):
    v = [random.gauss(0, 1) for z in range(f)]
    t.add_item(i, v)

t.build(10)  # 构建10棵树
t.save('test.ann')

# 加载查询
u = AnnoyIndex(f, 'angular')
u.load('test.ann')  # mmap映射，很快
print(u.get_nns_by_item(0, 10))  # 找离0最近的1000个邻居

Faiss

Faiss 是Facebook开源的稠密向量匹配检索库，支持C++和Python，是目前最流行的ANN库之一。

主要特性：

支持多种相似度度量：内积、欧氏距离等
支持精确检索和多种近似检索索引
支持相似度检索和聚类
支持CPU和GPU计算
支持Python和C++调用

使用步骤：

构建向量矩阵，每个向量一行
选择合适的索引类型，将向量add到索引中
搜索得到最近邻结果

代码示例：

python

import numpy as np
import faiss

d = 64                           # 向量维度
nb = 100000                      # 数据库大小
nq = 10000                       # 查询数量
xb = np.random.random((nb, d)).astype('float32')
xb[:, 0] += np.arange(nb) / 1000.
xq = np.random.random((nq, d)).astype('float32')
xq[:, 0] += np.arange(nq) / 1000.

# 构建索引
index = faiss.IndexFlatL2(d)   # L2距离精确检索
index.add(xb)                  # 添加向量到索引
k = 4
D, I = index.search(xq[:5], k) # 搜索，返回距离D和索引I
print(D)
print(I)

Faiss提供多种索引类型，从精确检索到各种近似检索，精度和速度trade-off不同，选择合适的即可。

主流向量数据库

Milvus

Milvus 是一款开源的特征向量相似度搜索引擎，特点：

高性能：集成了Faiss、Annoy、hnswlib等主流索引，性能优秀
高可用可扩展：支持Kubernetes部署，容灾能力强，云上扩展
混合查询：支持向量检索 + 标量字段过滤，混合查询
开发者友好：支持多语言，提供管理工具（Attu），生态完善

ElasticSearch

Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎，也支持向量检索。

倒排索引：

先对需要索引的字段分词，然后以分词为索引组织查找树，把全文匹配转化为树查找
倒排索引相比于B树索引，写入和更新性能差，适合全文搜索，不适合更新频繁的交易数据

ES本质上是一个支持全文搜索的分布式数据库，面向文档，使用JSON存储数据，天然适合存储文档和搜索。

向量检索应用

RAG检索增强生成：检索相关文档片段作为大模型的上下文
推荐系统：基于用户/物品嵌入找相似推荐
图像检索：以图搜图，找到相似图片
去重：找相似文本/图像去重
聚类分析：最近邻是很多聚类算法的基础

关键参数调优

所有ANN算法都存在精度和速度的权衡：

树越多/簇越多/索引越大 → 精度越高 → 构建越慢，内存越大
搜索时检查更多候选 → 精度越高 → 搜索越慢
根据应用需求选择：对精度要求高就牺牲一点速度，对速度要求高就接受略低精度

面试常见问题

什么是近似最近邻搜索（ANN）？为什么需要近似？

最近邻搜索就是在向量库找和查询向量最相似的k个向量。精确搜索需要遍历所有向量计算距离，时间复杂度O(n)，n很大（百万/亿级）时太慢。近似最近邻通过构建索引、剪枝搜索空间，牺牲微小精度换得几个数量级的速度提升，能处理大规模向量库的实时检索，所以实际应用都用近似。
Annoy的原理是什么？

Annoy构建多个随机二叉搜索树，每个节点根据随机两个中心点分割空间。查询时遍历每棵树收集候选，最后从候选中选最近的。多个树提升准确率，查询时间是对数级。实现简单，索引文件可以mmap加载，内存占用小。
Faiss是什么？它的优势是什么？

Faiss是Facebook开源的向量检索库，是目前最流行的ANN库之一。优势：支持多种索引类型（从精确到各种近似），支持CPU/GPU，支持多种距离度量，C++实现性能很高，同时提供Python接口易用，工业界应用广泛。
向量检索在RAG中起什么作用？

RAG需要从海量文档库中找到和用户问题最相关的文档片段。首先把所有文档片段编码成向量存入向量库，用户问题编码成向量后，用向量检索找到最相似的top-k个文档片段，作为上下文输入给大模型。向量检索是RAG能够快速找到相关文档的核心。
Milvus和Faiss有什么区别？

Faiss是一个ANN算法库，需要你自己管理数据和索引；Milvus是完整的向量数据库，提供数据管理、CRUD、混合查询、持久化、服务化等功能，开箱即用，更适合生产环境部署。Milvus内部也集成了Faiss作为索引引擎。
欧氏距离和余弦相似度的区别是什么？什么时候用哪个？

欧氏距离衡量空间中的绝对距离，余弦相似度衡量方向的一致性，不考虑向量长度。如果是文本嵌入（BERT/Sentence-BERT输出），通常用余弦相似度，因为我们关心方向（语义）不关心长度。如果是特征向量绝对值本身就很重要，用欧氏距离。
倒排索引是什么？为什么适合全文搜索？

倒排索引是"词→文档"的映射，先分词，然后建立每个词对应的文档列表，查询时直接找到包含查询词的文档，把全文搜索转化为词查找，速度快。相比于B树索引，倒排索引更适合关键词匹配，但不适合频繁更新。
为什么向量检索现在这么火？

大语言模型发展，RAG成为大模型落地的主流方案，RAG需要向量检索；深度学习发展，很多任务都可以用向量表示内容（文本、图像、视频），相似度搜索需求增加；向量数据库成熟，降低了使用门槛，所以越来越火。

向量检索

概述

向量检索是RAG（检索增强生成）、推荐系统、相似度搜索等应用的核心技术，随着大模型和向量数据库的发展，变得越来越重要。

向量检索原理

问题定义

给定一个向量库 X = {x1, x2, ..., xn}，每个xi是d维向量。对于查询向量q，找到与q距离最近（相似度最高）的k个向量。

相似度度量

常用的相似度/距离度量：

欧氏距离（L2距离）：衡量空间中的几何距离
余弦相似度：衡量向量方向的一致性，忽略大小，常用于词向量/句向量相似度
内积：余弦相似度归一化后等价于内积相似度

精确检索 vs 近似检索

精确检索：线性扫描所有向量，计算与查询的相似度，返回top-k。结果准确，但时间复杂度O(nd)，n很大时太慢，无法用于大规模向量库。
近似检索（ANN）：牺牲一点精度来换取巨大的速度提升，能处理亿级甚至十亿级向量库的快速检索，实际应用中几乎都用近似检索。

近似最近邻（ANN）算法

Annoy

Annoy（Approximate Nearest Neighbors Oh Yeah） 是Spotify开源的高维空间近似最近邻搜索库。

核心思想：

构建多个随机二叉搜索树
查询时遍历树，收集候选节点，最后排序返回最近邻
查询时间复杂度O(log n)

构建过程：

随机选两个中心点，将空间分成两部分
递归对每个子空间继续分割，直到每个节点包含不多于一定数量的向量
构建多棵这样的树，森林提高精度

参数调优：

n_trees：树的数量，构建时指定。值越大精度越高，但索引更大，构建慢
search_k：搜索时检查的节点数量，值越大精度越高，但搜索越慢。默认为 n_trees * n

代码示例：

python

from annoy import AnnoyIndex
import random

f = 40  # 向量维度
t = AnnoyIndex(f, 'angular')  # angular表示余弦距离
for i in range(1000):
    v = [random.gauss(0, 1) for z in range(f)]
    t.add_item(i, v)

t.build(10)  # 构建10棵树
t.save('test.ann')

# 加载查询
u = AnnoyIndex(f, 'angular')
u.load('test.ann')  # mmap映射，很快
print(u.get_nns_by_item(0, 10))  # 找离0最近的1000个邻居

Faiss

Faiss 是Facebook开源的稠密向量匹配检索库，支持C++和Python，是目前最流行的ANN库之一。

主要特性：

支持多种相似度度量：内积、欧氏距离等
支持精确检索和多种近似检索索引
支持相似度检索和聚类
支持CPU和GPU计算
支持Python和C++调用

使用步骤：

构建向量矩阵，每个向量一行
选择合适的索引类型，将向量add到索引中
搜索得到最近邻结果

代码示例：

python

import numpy as np
import faiss

d = 64                           # 向量维度
nb = 100000                      # 数据库大小
nq = 10000                       # 查询数量
xb = np.random.random((nb, d)).astype('float32')
xb[:, 0] += np.arange(nb) / 1000.
xq = np.random.random((nq, d)).astype('float32')
xq[:, 0] += np.arange(nq) / 1000.

# 构建索引
index = faiss.IndexFlatL2(d)   # L2距离精确检索
index.add(xb)                  # 添加向量到索引
k = 4
D, I = index.search(xq[:5], k) # 搜索，返回距离D和索引I
print(D)
print(I)

Faiss提供多种索引类型，从精确检索到各种近似检索，精度和速度trade-off不同，选择合适的即可。

主流向量数据库

Milvus

Milvus 是一款开源的特征向量相似度搜索引擎，特点：

高性能：集成了Faiss、Annoy、hnswlib等主流索引，性能优秀
高可用可扩展：支持Kubernetes部署，容灾能力强，云上扩展
混合查询：支持向量检索 + 标量字段过滤，混合查询
开发者友好：支持多语言，提供管理工具（Attu），生态完善

ElasticSearch

Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎，也支持向量检索。

倒排索引：

先对需要索引的字段分词，然后以分词为索引组织查找树，把全文匹配转化为树查找
倒排索引相比于B树索引，写入和更新性能差，适合全文搜索，不适合更新频繁的交易数据

ES本质上是一个支持全文搜索的分布式数据库，面向文档，使用JSON存储数据，天然适合存储文档和搜索。

向量检索应用

RAG检索增强生成：检索相关文档片段作为大模型的上下文
推荐系统：基于用户/物品嵌入找相似推荐
图像检索：以图搜图，找到相似图片
去重：找相似文本/图像去重
聚类分析：最近邻是很多聚类算法的基础

关键参数调优

所有ANN算法都存在精度和速度的权衡：

树越多/簇越多/索引越大 → 精度越高 → 构建越慢，内存越大
搜索时检查更多候选 → 精度越高 → 搜索越慢
根据应用需求选择：对精度要求高就牺牲一点速度，对速度要求高就接受略低精度

面试常见问题

什么是近似最近邻搜索（ANN）？为什么需要近似？

最近邻搜索就是在向量库找和查询向量最相似的k个向量。精确搜索需要遍历所有向量计算距离，时间复杂度O(n)，n很大（百万/亿级）时太慢。近似最近邻通过构建索引、剪枝搜索空间，牺牲微小精度换得几个数量级的速度提升，能处理大规模向量库的实时检索，所以实际应用都用近似。
Annoy的原理是什么？

Annoy构建多个随机二叉搜索树，每个节点根据随机两个中心点分割空间。查询时遍历每棵树收集候选，最后从候选中选最近的。多个树提升准确率，查询时间是对数级。实现简单，索引文件可以mmap加载，内存占用小。
Faiss是什么？它的优势是什么？

Faiss是Facebook开源的向量检索库，是目前最流行的ANN库之一。优势：支持多种索引类型（从精确到各种近似），支持CPU/GPU，支持多种距离度量，C++实现性能很高，同时提供Python接口易用，工业界应用广泛。
向量检索在RAG中起什么作用？

RAG需要从海量文档库中找到和用户问题最相关的文档片段。首先把所有文档片段编码成向量存入向量库，用户问题编码成向量后，用向量检索找到最相似的top-k个文档片段，作为上下文输入给大模型。向量检索是RAG能够快速找到相关文档的核心。
Milvus和Faiss有什么区别？

Faiss是一个ANN算法库，需要你自己管理数据和索引；Milvus是完整的向量数据库，提供数据管理、CRUD、混合查询、持久化、服务化等功能，开箱即用，更适合生产环境部署。Milvus内部也集成了Faiss作为索引引擎。
欧氏距离和余弦相似度的区别是什么？什么时候用哪个？

欧氏距离衡量空间中的绝对距离，余弦相似度衡量方向的一致性，不考虑向量长度。如果是文本嵌入（BERT/Sentence-BERT输出），通常用余弦相似度，因为我们关心方向（语义）不关心长度。如果是特征向量绝对值本身就很重要，用欧氏距离。
倒排索引是什么？为什么适合全文搜索？

倒排索引是"词→文档"的映射，先分词，然后建立每个词对应的文档列表，查询时直接找到包含查询词的文档，把全文搜索转化为词查找，速度快。相比于B树索引，倒排索引更适合关键词匹配，但不适合频繁更新。
为什么向量检索现在这么火？

大语言模型发展，RAG成为大模型落地的主流方案，RAG需要向量检索；深度学习发展，很多任务都可以用向量表示内容（文本、图像、视频），相似度搜索需求增加；向量数据库成熟，降低了使用门槛，所以越来越火。

大模型面试

大模型面试

向量检索

向量检索

概述

向量检索原理

问题定义

相似度度量

精确检索 vs 近似检索

近似最近邻（ANN）算法

Annoy

Faiss

主流向量数据库

Milvus

ElasticSearch

向量检索应用

关键参数调优

面试常见问题

向量检索

向量检索

概述

向量检索原理

问题定义

相似度度量

精确检索 vs 近似检索

近似最近邻（ANN）算法

Annoy

Faiss

主流向量数据库

Milvus

ElasticSearch

向量检索应用

关键参数调优

面试常见问题