Schema 和数据类型
Schema 定义了 Collection 的数据结构,决定了 Collection 这张表格中各列的名称、顺序以及它们能够接受的数据类型和相关属性。本章将结合具体例介绍如何定义 Schema 以及相关注意事项。
了解 Schema [READ MORE]
Schema 定义了 Collection 的数据结构。在创建 Collection 之前,您需要根据业务需要,设计并创建好 Collection 的 Schema。本章将介绍设计与创建 Schema 时需要注意的相关事项。
主键与 AutoID [READ MORE]
主键唯一标识一个 Entity。本节将介绍如何添加两种类型的主键及如何开启自动分配主键值。
稠密向量 [READ MORE]
稠密向量是一种数值化的数据表示方法,在机器学习和数据分析领域广泛使用。它是由一系列实数组成的数组,其特点是大多数或所有元素都是非零值。与稀疏向量相比,稠密向量在同等维度下包含更多的信息,因为每个维度都携带有意义的数值。这种表示方法能够有效地捕捉复杂的模式和关系,使得数据在高维空间中更容易被分析和处理。稠密向量通常具有固定的维度,可以是几十到几百,甚至几千维,具体取决于应用场景和需求。
Binary 向量 [READ MORE]
Binary 向量是一种特殊的数据表示形式,通过将传统的高维浮点向量转换为仅包含 0 和 1 的二进制向量。这种转换不仅压缩了向量的大小,还能够在保留语义信息的同时,减少存储和计算成本。在非关键特征的精度要求较低的情况下,Binary 向量能够有效保留大部分原始浮点向量的完整性和实用性。
稀疏向量 [READ MORE]
稀疏向量(Sparse Vector)是信息检索和自然语言处理中的一种重要数据表示方法。虽然稠密向量(Dense Vector)因其出色的语义理解能力而广受欢迎,但在需要精确匹配关键词或短语的应用中,稀疏向量往往能够提供更为准确的结果。
字符串类型 [READ MORE]
在 Zilliz Cloud 中,`VARCHAR` 是用于存储字符串类型的数据类型,适用于可变长度字符串的存储。它可以存储包含单字节和多字节字符的字符串,最大长度可达 65,535 字符。在定义 `VARCHAR` 字段时,需要同时指定最大长度参数 `maxlength`。`VARCHAR` 字符串类型为您提供了一种高效、灵活的方式来存储和管理文本数据,适用于需要处理不同长度字符串的应用场景。
标量数值类型 [READ MORE]
标量数值类型用于存储 Zilliz Cloud clusters 中的非向量数值型数据。这些类型通常用于描述与向量数据相关的附加信息,例如年龄、价格等。通过使用这些数据,可以更好地描述向量,同时提高数据过滤和条件查询的效率。
JSON 类型 [READ MORE]
JSON(JavaScript 对象表示法)是一种轻量级的数据交换格式,提供了一种灵活的方式来存储和查询复杂的数据结构。在 Zilliz Cloud clusters 中,您可以将附加的结构化信息以 JSON 字段的形式与向量数据一起存储,从而可以通过结合向量相似性和结构化过滤来执行更高级的搜索和查询。
Array 类型 [READ MORE]
Array 类型是一种用于存储多个相同数据类型值的字段类型。它提供了一种灵活的方式来存储包含多个元素的属性,这在需要保存一组相关数据的场景中非常有用。在 Zilliz Cloud clusters 中,您可以将 Array 字段与向量数据一起存储,从而实现更复杂的查询和过滤需求。
Dynamic Field [READ MORE]
所有在 Schema 中定义的字段都需要包含在待插入的 Entity 中。如果希望部分字段为可选,可以考虑启用 Dynamic Field。本节将介绍如何启用及使用 Dynamic Field。
设计指南 [READ MORE]
信息检索系统 (IRS),也被称为搜索引擎,是各类 AI 应用的核心依赖,被广泛应用于检索增强生成(RAG)、图像搜索、产品推荐等场景中。开发一套 IRS 的第一步就是数据模型设计,涉及业务需求分析、确定信息组织方式以及为数据建立索引使其能够按语义进行查询。