跳到主要内容
版本:BYOC 开发指南

多向量混合搜索

在许多应用中,可以通过丰富的信息集来搜索对象,例如标题和描述,或者通过多种模态,如文本、图像和音频。例如,如果文本或图像与搜索查询的语义匹配,则应搜索包含一段文本和一张图像的推文。混合搜索通过结合跨这些不同字段的搜索来增强搜索体验。Zilliz Cloud 通过允许在多个向量字段上进行搜索,同时执行多个近似最近邻(ANN)搜索来支持这一点。如果您想同时搜索文本和图像、描述同一对象的多个文本字段,或者密集和稀疏向量以提高搜索质量,多向量混合搜索特别有用。

N5SKwwAIohqoa4b1KWpc7MeHny4

多向量混合搜索整合了不同的搜索方法或跨多种模态的嵌入:

  • 稀疏-密集向量搜索稠密向量非常适合捕捉语义关系,而稀疏向量对于精确的关键字匹配非常有效。混合搜索结合了这些方法,提供了广泛的概念理解和准确的术语相关性,从而改善了搜索结果。通过利用每种方法的优势,混合搜索克服了不可分割方法的局限性,为复杂查询提供了更好的性能。这里有一个更详细的混合检索指南,它将语义搜索与全文搜索相结合。

  • 多模态向量搜索:多模态向量搜索是一种强大的技术,它允许你跨多种数据类型进行搜索,包括文本、图像、音频等。这种方法的主要优势在于它能够将不同的模态统一成无缝且连贯的搜索体验。例如,在产品搜索中,用户可能输入文本查询来查找同时用文本和图像描述的产品。通过混合搜索方法结合这些模态,你可以提高搜索准确性或丰富搜索结果。

示例

让我们考虑一个现实世界的用例,其中每个产品都包含文本描述和图像。根据可用数据,我们可以进行三种类型的搜索:

  • **语义文本搜索:**这涉及使用密集向量查询产品的文本描述。文本嵌入可以使用 BERTTransformers 等模型或 OpenAI 等服务生成。

  • 全文搜索:在这里,我们使用与稀疏向量的关键词匹配来查询产品的文本描述。像 BM25 这样的算法或 BGE-M3SPLADE 等稀疏嵌入模型可用于此目的。

  • **多模态图像搜索:**此方法使用带有密集向量的文本查询对图像进行查询。图像嵌入可以使用 CLIP 等模型生成。

本指南将结合产品的原始文本描述和图像嵌入,为您详细介绍一个结合上述搜索方法的多模态混合搜索示例。我们将展示如何存储多向量数据,并使用重排序策略执行混合搜索。

创建具有多个向量字段的集合

创建集合的过程涉及三个关键步骤:定义 Collection Schema、配置索引参数和创建 Collection。

定义 Schema

对于多向量混合搜索,我们应该在 Collection Schema 中定义多个向量字段。有关集合中允许的向量字段数量限制的详细信息,请参阅使用限制

此示例将以下字段纳入架构中:

  • id:用作存储文本 ID 的主键。该字段的数据类型为 INT64

  • text:用于存储文本内容。该字段的数据类型为VARCHAR,最大长度为1000字节。enable_analyzer选项设置为True,以方便进行全文搜索。

  • text_dense:用于存储文本的密集向量。此字段的数据类型为FLOAT_VECTOR,向量维度为768。

  • text_sparse:用于存储文本的稀疏向量。该字段的数据类型为SPARSE_FLOAT_VECTOR

  • image_dense: 用于存储产品图像的密集向量。该字段的数据类型为FLOAT_VETOR,向量维度为 512。

由于我们将使用内置的 BM25 算法对文本字段执行全文搜索,因此有必要在模式中添加 Milvus 函数。有关更多详细信息,请参阅 Full Text Search

from pymilvus import (
MilvusClient, DataType, Function, FunctionType
)

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# Init schema with auto_id disabled
schema = MilvusClient.create_schema(auto_id=False)

# Add fields to schema
schema.add_field(field_name="id", datatype=DataType.INT64, is_primary=True, description="product id")
schema.add_field(field_name="text", datatype=DataType.VARCHAR, max_length=1000, enable_analyzer=True, description="raw text of product description")
schema.add_field(field_name="text_dense", datatype=DataType.FLOAT_VECTOR, dim=768, description="text dense embedding")
schema.add_field(field_name="text_sparse", datatype=DataType.SPARSE_FLOAT_VECTOR, description="text sparse embedding auto-generated by the built-in BM25 function")
schema.add_field(field_name="image_dense", datatype=DataType.FLOAT_VECTOR, dim=512, description="image dense embedding")

# Add function to schema
bm25_function = Function(
name="text_bm25_emb",
input_field_names=["text"],
output_field_names=["text_sparse"],
function_type=FunctionType.BM25,
)
schema.add_function(bm25_function)

创建索引

定义 Collection Schema 后,下一步是配置向量索引并指定相似度类型。在给定示例中:

  • text_dense_index:为文本稠密向量字段创建了一个类型为 AUTOINDEX 且度量类型为 IP 的索引。

  • text_sparse_index:类型为 SPARSE_INVERTED_INDEXBM25 度量类型的索引用于文本稀疏向量字段。

  • image_dense_index:为图像密集向量字段创建了一个类型为 AUTOINDEX、度量类型为 IP 的索引。

from pymilvus import MilvusClient

# Prepare index parameters
index_params = client.prepare_index_params()

# Add indexes
index_params.add_index(
field_name="text_dense",
index_name="text_dense_index",
index_type="AUTOINDEX",
metric_type="IP"
)

index_params.add_index(
field_name="text_sparse",
index_name="text_sparse_index",
index_type="AUTOINDEX",
metric_type="BM25"
)

index_params.add_index(
field_name="image_dense",
index_name="image_dense_index",
index_type="AUTOINDEX",
metric_type="IP"
)

创建 Collection

创建一个名为demo的 Collection,其 Schema 和索引已在前面两个步骤中配置。

from pymilvus import MilvusClient

client.create_collection(
collection_name="my_collection",
schema=schema,
index_params=index_params
)

插入数据

本节根据之前定义的 Schema 将数据插入到 my_collection 中。在插入过程中,请确保除了具有自动生成值的字段外,所有字段都以正确的格式提供了数据。在这个示例中:

  • id:表示产品 ID 的整数

  • text: 包含产品描述的字符串

  • text_dense:一个包含 768 个浮点值的列表,代表文本描述的密集嵌入

  • image_dense: 一个包含 512 个浮点值的列表,代表产品图像的密集嵌入

您可以使用相同或不同的模型为每个字段生成稠密向量。在这个示例中,两个稠密向量的维度不同,这表明它们是由不同的模型生成的。在后续定义每个搜索时,请务必使用相应的模型来生成合适的查询向量。

由于此示例使用内置的 BM25 函数从文本字段生成稀疏向量,因此您无需手动提供稀疏向量。但是,如果您选择不使用 BM25,则必须自行预先计算并提供稀疏嵌入。

from pymilvus import MilvusClient

data=[
{
"id": 0,
"text": "Red cotton t-shirt with round neck",
"text_dense": [0.3580376395471989, -0.6023495712049978, 0.18414012509913835, ...],
"image_dense": [0.6366019600530924, -0.09323198122475052, ...]
}
{
"id": 1,
"text": "Wireless noise-cancelling over-ear headphones",
"text_dense": [0.19886812562848388, 0.06023560599112088, 0.6976963061752597, ...],
"image_dense": [0.6414180010301553, 0.8976979978567611, ...]
},
{
"id": 2,
"text": "Stainless steel water bottle, 500ml",
"dense": [0.43742130801983836, -0.5597502546264526, 0.6457887650909682, ...],
"image_dense": [-0.6901259768402174, 0.6100500332193755, ...]
}
]

res = client.insert(
collection_name="my_collection",
data=data
)

步骤 1:创建多个 AnnSearchRequest 实例

混合搜索通过在 hybrid_search() 函数中创建多个 AnnSearchRequest 来实现,其中每个 AnnSearchRequest 代表针对特定向量字段的基本 ANN 搜索请求。因此,在进行混合搜索之前,有必要为每个向量字段创建一个 AnnSearchRequest

此外,通过在 AnnSearchRequest 中配置 expr 参数,您可以为混合搜索设置过滤条件。请参考 Filtered Search过滤表达式概览

📘注释

在混合搜索中,每个 AnnSearchRequest 仅支持一个查询数据。

为了展示各种搜索向量字段的功能,我们将使用一个示例查询构造三个 AnnSearchRequest 搜索请求。我们还将在这个过程中使用其预先计算的稠密向量。搜索请求将针对以下向量字段:

  • text_dense 用于语义文本搜索,支持基于含义的上下文理解和检索,而非直接的关键词匹配。

  • text_sparse 稀疏用于全文搜索或关键词匹配,专注于文本中精确的单词或短语匹配。

  • image_dense 用于多模态文本到图像搜索,根据查询的语义内容检索相关产品图像。

from pymilvus import AnnSearchRequest

query_text = "white headphones, quiet and comfortable"
query_dense_vector = [0.3580376395471989, -0.6023495712049978, 0.5142999509918703, ...]
query_multimodal_vector = [0.015829865178701663, 0.5264158340734488, ...]

# text semantic search (dense)
search_param_1 = {
"data": [query_dense_vector],
"anns_field": "text_dense",
"param": {"nprobe": 10},
"limit": 2
}
request_1 = AnnSearchRequest(**search_param_1)

# full-text search (sparse)
search_param_2 = {
"data": [query_text],
"anns_field": "text_sparse",
"param": {"drop_ratio_search": 0.2},
"limit": 2
}
request_2 = AnnSearchRequest(**search_param_2)

# text-to-image search (multimodal)
search_param_3 = {
"data": [query_multimodal_vector],
"anns_field": "image_dense",
"param": {"nprobe": 10},
"limit": 2
}
request_3 = AnnSearchRequest(**search_param_3)

reqs = [request_1, request_2, request_3]

由于参数 limit 设置为 2,每个 AnnSearchRequest 返回 2 个搜索结果。在这个例子中,创建了 3 个 AnnSearchRequest 实例,总共产生 6 个搜索结果。

步骤 2:配置重排序策略

为了合并和重新排序 ANN 搜索结果集,选择合适的重排序策略至关重要。Zilliz Cloud 提供多种重排序策略。有关这些重排序机制的更多详细信息,请参阅重排

在这个例子中,由于没有特别强调特定的搜索查询,我们将采用 RRFRanker 策略。

from pymilvus import RRFRanker

ranker = RRFRanker(100)

在启动混合搜索之前,请确保已加载 Collection。如果 Collection 中的任何向量字段缺少索引或未加载到内存中,则在执行混合搜索方法时将发生错误。

from pymilvus import MilvusClient

res = client.hybrid_search(
collection_name="my_collection",
reqs=reqs,
ranker=ranker,
limit=2
)
for hits in res:
print("TopK results:")
for hit in hits:
print(hit)

以下是输出内容:

["['id: 1, distance: 0.006047376897186041, entity: {}', 'id: 2, distance: 0.006422005593776703, entity: {}']"]

在为混合搜索指定了 limit=2 参数的情况下,Zilliz Cloud 将对从三次搜索中获得的六个结果进行重新排序。最终,它们将只返回最相似的前两个结果。