跳到主要内容

创建 Collection

Zilliz Cloud 在支持根据您定义的 Collection Schema 创建 Collection 的能力。您可以根据业务开发需要,确定 Collection Schema、索引参数、相似度类型、是否自动加载等设置。本节将介绍创建 Collection 的具体步骤及相关注意事项。

概述

Collection 是一张二维数据表,包含固定列数和可变行数。Collection 数据表中的每 1 列对应 1 个字段,每 1 行表示 1 个 Entity。为了实现这种结构化的数据管理方式,我们需要为 Collection 指定 Schema,并在插入 Entity 时,确保每个插入的 Entity 都符合 Schema 的要求。

您可以根据业务开发需要,自主确定 Collection Schema、索引参数、相似度类型、是否自动加载等,确保 Collection 的各项设置都能满足您的需要。

创建 Collection 主要包含如下三个步骤:

  1. 创建 Schema

  2. 创建索引参数(可选)

  3. 创建 Collection

创建 Schema

Schema 定义了 Collection 的数据结构。在创建 Collection 时,您需要根据业务需求,设计 Schema 的属性和结构。如需了解更多,可参阅 了解 Schema 一节中的内容。

如下示例创建了一个 Schema。在该 Schema 中启用了 Dynamic Field 并添加了名为 my_idmy_vector 以及 my_varchar 的三个字段。

📘说明

Zilliz Cloud 支持为标量字段设置 nullable 属性和默认值。有关更多信息,请参考 Nullable 和默认值

# 3. Create a collection in customized setup mode
from pymilvus import MilvusClient, DataType

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# 3.1. Create schema
schema = MilvusClient.create_schema(
auto_id=False,
enable_dynamic_field=True,
)

# 3.2. Add fields to schema
schema.add_field(field_name="my_id", datatype=DataType.INT64, is_primary=True)
schema.add_field(field_name="my_vector", datatype=DataType.FLOAT_VECTOR, dim=5)
schema.add_field(field_name="my_varchar", datatype=DataType.VARCHAR, max_length=512)

(可选)创建索引参数

通过为指定字段创建索引,可以加速针对该字段的搜索。索引决定了 Zilliz Cloud 如何为 Collection 中的数据排序。以下示例中展示了如何通过调整 metric_typeindex_type 这两个参数来选择合适的相似度类型和索引类型。

在 Zilliz Cloud 中,您可以使用 AUTOINDEX 作为向量字段的index_type,并按需灵活选择 COSINEL2IP 作为 metric_type

# 3.3. Prepare index parameters
index_params = client.prepare_index_params()

# 3.4. Add indexes
index_params.add_index(
field_name="my_id",
index_type="STL_SORT"
)

index_params.add_index(
field_name="my_vector",
index_type="AUTOINDEX",
metric_type="COSINE"
)

上述代码展示了如何为向量字段和标量字段设置索引参数。向量字段需要同时设置 index_typemetric_type。标量字段仅需设置 index_type。每个向量字段都需要创建索引。建议您为在过滤时常用的标量字段创建索引。

更多关于索引类型详情,请参考管理 Index

创建 Collection

如果在创建 Collection 时选择指定索引参数,Collection 创建完毕后,Zilliz Cloud 会自动在指定的向量字段上创建索引,并加载索引到内存。

如下示例演示了如何在创建 Collection 时携带索引参数,并在创建完成后检查 Collection 的加载状态。

# 3.5. Create a collection with the index loaded simultaneously
client.create_collection(
collection_name="customized_setup_1",
schema=schema,
index_params=index_params
)

res = client.get_load_state(
collection_name="customized_setup_1"
)

print(res)

# Output
#
# {
# "state": "<LoadState: Loaded>"
# }

您也可以选择在完成 Collection 创建后再创建索引。在此情况下,Zilliz Cloud 不会在 Collection 创建完成后执行 Load 操作。如果需要在完成 Collection 创建后为其创建索引,可以参考创建 Vector Index

如下示例演示了如何在创建 Collection 时不携带索引参数。在 Collection 创建完成后检查其加载状态时,其状态应为未加载。

# 3.6. Create a collection and index it separately
client.create_collection(
collection_name="customized_setup_2",
schema=schema,
)

res = client.get_load_state(
collection_name="customized_setup_2"
)

print(res)

# Output
#
# {
# "state": "<LoadState: NotLoad>"
# }

Zilliz Cloud 还提供基于默认设置的快速创建 Collection 的方法。更多内容,可参考快速创建 Collection

设置 Collection

你还可以在创建 Collection 时对 Collection 进行设置,使其更加符合业务需要。目前,Zilliz Cloud 支持在创建 Collection 时指定如下设置:

设置 Shard 数量

Shard 是对 Collection 的水平切分,每个 Shard 对应一条数据写入通路。每个 Collection 默认带有一个 Shard,您可以根据希望的写入速率和待写入的数据量大小在创建 Collection 时来设置合适的 Shard 数量。

通常情况而言,写入速率每增加 500M/s 或待写入数据量每多 100 GB,可以考虑增加 1 个 Shard。此处仅为建议,不是限制。这只是我们根据自己的经验给出的建议,并不适用于所有可能的使用场景。保持默认 Shard 数量也能够完成数据写入。

如下代码演示了如何在创建 Collection 时设置 Shard 数量。

# With shard number
client.create_collection(
collection_name="customized_setup_3",
schema=schema,
# highlight-next-line
num_shards=1
)

开启 mmap

Zilliz Cloud 在所有 Collection 上默认开启 mmap。该功能可以让 Zilliz Cloud 使用内存映射的方式加载所有字段的原始数据。节约内存使用的同时,提高 Collection 容量。关于该功能的具体内容,可以查看使用 mmap

# With mmap
client.create_collection(
collection_name="customized_setup_4",
schema=schema,
# highlight-next-line
enable_mmap=False
)

设置生存时间(TTL)

如果您需要 Zilliz Cloud 在 Collection 创建完成后的一段时间内自动销毁该 Collection。可以考虑为 Collection 设置 TTL。这样当 Collection 的生存时间超过指定时间(单位为秒)后,Zilliz Cloud 就会开始异步删除 Collection 中的数据,并销毁该 Collection。在数据完全删除前,您仍旧可以搜索到部分数据。

如下示例代码将 Collection 的 TTL 设置为 1 天(86400 秒)。建议将 TTL 至少设置为几天时间。

# With TTL
client.create_collection(
collection_name="customized_setup_5",
schema=schema,
# highlight-start
properties={
"collection.ttl.seconds": 86400
}
# highlight-end
)

设置一致性水平

在创建 Collection 时,您可以指定在该 Collection 中进行搜索和查询时使用的一致性水平。您也可以在具体的 Search 和 Query 请求中指定不同的一致性水平。

# With consistency level
client.create_collection(
collection_name="customized_setup_6",
schema=schema,
# highlight-next
consistency_level="Bounded",
)

关于一致性水平的更多内容,可以查看一致性水平

使用 Dynamic Field

在 Collection 中,Dynamic Field 是一个名为 $meta 的保留字段。当您启用该字段后,Zilliz Cloud 会将 Entity 中携带的所有未在 Schema 中定义的字段以键值对的形式存放在 Dynamic Field 中。

关于 Dynamic Field 的更多内容,可以参考 使用 Dynamic Field