跳到主要内容

基本 Vector Search

近似最近邻(ANN)Search 通过构建索引的方式对向量空间中的向量进行预排序,并在收到 Search 请求时根据索引快速定位到与查询向量相似可能性较高的子集中进行对比查询,从而提升查询效率。本节主要介绍如何使用 Milvus 进行 ANN Search 及相关的注意事项。

概述

向量搜索的实现主要依赖两类算法,一类是 k-最近邻(kNN)Search,一类是 ANN Search。kNN 算法将查询向量与向量空间中的每个向量进行比较,直到出现 k 个完全匹配的结果。尽管 kNN 搜索可以确保准确性,但十分耗时。尤其是数据量大,向量维度高时,耗时更久。

相比之下,ANN 算法会预先构建索引。并在收到 Search 请求时根据索引快速定位到与查询向量相似可能性较高的子集,然后根据请求中携带的相似度类型计算查询向量和子集中各向量的相似性,并对计算结果进行排序,从而在更短的时间内返回与查询向量相似度最高的 topK 个向量。

ANN Search 依赖预先创建的索引。选择不同的索引算法会影响搜索速度、内存使用情况和准确性。用户需要在召回率和性能之间做出取舍。为了降低用户的学习曲线,Zilliz Cloud 提供了 AUTOINDEX。通过在建立索引时分析用户数据的分布情况,使用机器学习模型自动选择检索参数,实现召回率和检索性能间的平衡。

关于 AUTOINDEX 的详细内容,可以参考本手册中的 AUTOINDEX 一节的内容。关于相似度类型,可以参考本手册中相似度类型一节的内容。本节将围绕如下话题展开讨论:

在 ANN Search 中,单路查询是指在 Search 请求中携带一个查询向量,由 Zilliz Cloud 通过预先建立的索引和请求中携带的相似度类型快速找到与查询向量最相近的 topK 个向量。

本节将演示如何在使用最简建表方式创建的 Collection 中进行单路查询。示例代码中的 Search 请示携带了一个查询向量,要求使用内积(IP)算法计算查询向量和目标向量间的相似度,并返回最相近的 3 个向量。

from pymilvus import MilvusClient

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# 4. Single vector search
query_vector = [0.3580376395471989, -0.6023495712049978, 0.18414012509913835, -0.26286205330961354, 0.9029438446296592]
res = client.search(
collection_name="my_collection",
anns_field="vector",
data=[query_vector],
limit=3,
search_params={"metric_type": "IP"}
)

for hits in res:
for hit in hits:
print(hit)

# [
# [
# {
# "id": 551,
# "distance": 0.08821295201778412,
# "entity": {}
# },
# {
# "id": 296,
# "distance": 0.0800950899720192,
# "entity": {}
# },
# {
# "id": 43,
# "distance": 0.07794742286205292,
# "entity": {}
# }
# ]
# ]

返回的结果将按相似度进行排序,与查询向量最相似的结果排在前面。度量值的大小根据相似度类型的不同呈现出不同的特点。下表展示了使用不同的相似度类型,其度量值的特点。

相似度类型

特点

取值范围

L2

较小的 L2 距离表示更高的相似性。

[0, ∞)

IP

较大的 IP 距离表示更高的相似性。

[-1, 1]

COSINE

较大的 cosine 值表示更高的相似性。

[-1, 1]

JACCARD

较小的 Jaccard 距离表示更高的相似性。

[0, 1]

HAMMING

较小的 Hamming 距离表示更高的相似性。

[0, dim(vector)]

您也可以在 Search 请求中携带多个查询向量,Zilliz Cloud 将分别针对这两个查询向量执行 ANN Search,并返回两组查询结果。

# 7. Search with multiple vectors
# 7.1. Prepare query vectors
query_vectors = [
[0.041732933, 0.013779674, -0.027564144, -0.013061441, 0.009748648],
[0.0039737443, 0.003020432, -0.0006188639, 0.03913546, -0.00089768134]
]

# 7.2. Start search
res = client.search(
collection_name="my_collection",
data=query_vectors,
limit=3,
)

for hits in res:
print("TopK results:")
for hit in hits:
print(hit)

# Output
#
# [
# [
# {
# "id": 551,
# "distance": 0.08821295201778412,
# "entity": {}
# },
# {
# "id": 296,
# "distance": 0.0800950899720192,
# "entity": {}
# },
# {
# "id": 43,
# "distance": 0.07794742286205292,
# "entity": {}
# }
# ],
# [
# {
# "id": 730,
# "distance": 0.04431751370429993,
# "entity": {}
# },
# {
# "id": 333,
# "distance": 0.04231833666563034,
# "entity": {}
# },
# {
# "id": 232,
# "distance": 0.04221535101532936,
# "entity": {}
# }
# ]
# ]

在 Parition 中进行 ANN Search

如果 Collection 中存在多个按具体划分规则划分的 Partition,而且您的查询目标可以具体到其中的一个或多个 Partition。您就可以在 Search 请求中携带目标 Partition 的名称。通过减少扫描的数据量,可以显著提高搜索速度。

在以下示例代码中,假设存在一个名为 partitionA 的 Partition。

# 4. Single vector search
query_vector = [0.3580376395471989, -0.6023495712049978, 0.18414012509913835, -0.26286205330961354, 0.9029438446296592]
res = client.search(
collection_name="my_collection",
# highlight-next-line
partition_names=["partitionA"],
data=[query_vector],
limit=3,
)

for hits in res:
print("TopK results:")
for hit in hits:
print(hit)

# [
# [
# {
# "id": 551,
# "distance": 0.08821295201778412,
# "entity": {}
# },
# {
# "id": 296,
# "distance": 0.0800950899720192,
# "entity": {}
# },
# {
# "id": 43,
# "distance": 0.07794742286205292,
# "entity": {}
# }
# ]
# ]

使用 Output Fields 参数

在 Zilliz Cloud 中,ANN Search 默认返回与查询向量最相近的 topK 个 Entity 的主键值 (id) 及该 Entity 与查询向量的相似度得分 (distancescore)。如果要求返回的每个 Entity 中都携带指定字段的值,可以在 Search 请求中指定 Output Fields (输出字段)。

# 4. Single vector search
query_vector = [0.3580376395471989, -0.6023495712049978, 0.18414012509913835, -0.26286205330961354, 0.9029438446296592],

res = client.search(
collection_name="quick_setup",
data=[query_vector],
limit=3, # The number of results to return
search_params={"metric_type": "IP"}
# highlight-next-line
output_fields=["color"]
)

print(res)

# [
# [
# {
# "id": 551,
# "distance": 0.08821295201778412,
# "entity": {
# "color": "orange_6781"
# }
# },
# {
# "id": 296,
# "distance": 0.0800950899720192,
# "entity": {
# "color": "red_4794"
# }
# },
# {
# "id": 43,
# "distance": 0.07794742286205292,
# "entity": {
# "color": "grey_8510"
# }
# }
# ]
# ]

使用 Limit 和 Offset 参数

通过上面的代码示例,您可能注意到了用于控制 Search 结果中的 Entity 数量的 limit 参数。这个参数代表单次查询结果中要求包含的 Entity 的最大数量,一般称之为 topK

如果您希望进行分页查询,可以循环发送 Search 请求,并在每次查询请求中都携带 Limit 和 Offset 参数。具体来说,可以将 Limit 参数设置为当次查询的结果中需要包含的 Entity 数量,Offset 设置为之前已经返回的所有 Entity 的数量。

下表罗列了以每次返回 100 个 Entity 的速度进行分页查询时如何设置 Limit 和 Offset 参数。

单页返回 Entity 数量(Limit)

已返回 Entity 总数量(Offset)

第 1 次

100

0

第 2 次

100

100

第 3 次

100

200

第 n 次

100

100 x (n - 1)

需要注意的是,ANN Search 单次召回 Entity 的数量为 offsetlimit 两个参数之和,最大不超过 16,384。

# 4. Single vector search
query_vector = [0.3580376395471989, -0.6023495712049978, 0.18414012509913835, -0.26286205330961354, 0.9029438446296592],

res = client.search(
collection_name="quick_setup",
data=[query_vector],
limit=3, # The number of results to return
search_params={
"metric_type": "IP",
# highlight-next-line
"offset": 10 # The records to skip
}
)

使用 Level 参数

检索调优要求根据不同的索引类型调整不同的参数。Zilliz Cloud 使用了一个统一的检索精度控制参数 level,简化了检索参数调优的过程。

该参数默认值为 1,最大值为 10。调升参数值会提高召回率,但会相对降低检索性能。通常情况下,默认的检索精度可以支撑 90% 左右的召回率,基本满足大多数场景需求。如需更高的召回率,可以尝试调升该参数。

📘说明

查询参数 Level 当前仍处于公测阶段。如果您设置了高于 5 的值而搜索结果没有变化,您的 Cluster 可能尚未支持该参数。您可以继续按照 1 - 5 的范围调节召回效果或联系 Zilliz Cloud 支持

# 4. Single vector search
query_vector = [0.3580376395471989, -0.6023495712049978, 0.18414012509913835, -0.26286205330961354, 0.9029438446296592],

res = client.search(
collection_name="quick_setup",
data=[query_vector],
limit=3, # The number of results to return
search_params={
params: {
# highlight-next-line
"level": 1 # The precision control
}
}
)

查看召回率

您还可以在调节 level 参数期间将 enable_recall_rate 参数设置为 true,以便在搜索结果中查看当前 level 值对应的召回率信息。

📘说明

查询参数 enable_recall_rate 当前仍处于公测阶段。您的集群可能尚未支持该参数。如需体验,可以联系 Zilliz Cloud 支持

# 4. Single vector search
query_vector = [0.3580376395471989, -0.6023495712049978, 0.18414012509913835, -0.26286205330961354, 0.9029438446296592],

res = client.search(
collection_name="quick_setup",
data=[query_vector],
limit=3, # The number of results to return
search_params={
params: {
# highlight-next-line
"level": 10 # The precision control,
"enable_recall_calculation": True # Ask to return recall rate
}
}
)

Zilliz Cloud 提供的 AUTOINDEX 已经极大地降低了执行 ANN Search 的门槛,但在大规模召回的情况下依旧很难避免遇到类似返回与查询向量不相关的 Entity 等各种问题。按照缩小搜索范围、提升召回质量和提升召回结果多样性的思路,Milvus 提供了如下几种能力:

  • Filtered Search

    ANN Search 支持在请求中携带过滤条件表达式,并在执行向量搜索前根据过滤条件表达式过滤出与之匹配的 Entity。通过这种方式,向量搜索的范围由整个 Collection 中的所有 Entity 缩小到与过滤条件表达式匹配的所有 Entity 了。

    关于标量过滤和过滤条件表达式的更多内容,可查看Filtered Search过滤表达式概览

  • Range Search

    Range Search 是通过指定相似度得分范围的方式提升 ANN Search 的召回质量。在执行 Range Search 时,Zilliz Cloud 会以 ANN Search 召回结果中与查询向量最相似的向量为圆心,以 Search 请求中指定的 radius 值为外圆半径,以 range_filter 为内圆半径画两个同心圆。所有相似度得分落在由这两个同心圆构成的圆环上的向量会被返回。

    关于 Range Search 的更多内容,可查看 Range Search

  • Grouping Search

    如果召回结果中所有 Entity 在某个标量字段上的取值都相同时,召回结果可能并不能真实反映与查询向量相似的所有向量在向量空间中的分布情况。为了提升召回结果的多样性,可以考虑使用 Grouping Search。

    关于 Grouping Search 的更多内容,可查看Grouping Search

  • Hybrid Search

    Zilliz Cloud 支持在创建 Collection 时设置多个向量字段,用于存放使用不同的 Embedding 模型生成的向量数据。在此基础上,您可以使用 Hybrid Search 功能混合不同向量字段的多路召回结果并对它们进行混合排序,尝试得到更为精准的召回结果。

    关于 Hybrid Search 的更多内容,可查看Hybrid Search

  • Search Iterator

    ANN Search 单次召回有最大数量限制。对于 topK 大于 16,384 的 ANN Search 请求,可以考虑使用 Search Iterator。

    关于 Search Iterator 的更多内容,可查看Search Iterator

  • 使用 Partition Key

    如果参与过滤的标量字段过多、过滤条件表达式过于复杂,都可能会对召回效率带来负面影响。Zilliz Cloud 提出了 Partition Key 这个概念。通过将 Collection 中某一标量字段指定为 Partition Key,并在 Search 请求中使用仅包含 Partition Key 的过滤条件表达式,可以快速将搜索范围缩小到指定 Partition Key 值对应的若干 Partition。

    关于 Partition Key 的更多内容,可查看使用 Partition Key

  • 使用 mmap

    关于 mmap 设置的相关内容,可以查看使用 mmap