跳到主要内容

Standard
公测版

Zilliz Cloud 中的标准分词器根据空格和标点符号对文本进行分割,因此适用于大多数语言。

配置

要使用标准分词器配置分析器,请在 analyzer_params 中将 tokenizer 设置为 standard

analyzer_params = {
"tokenizer": "standard",
}

标准分词器可以与一个或多个过滤器结合使用。例如,以下代码定义了一个使用标准分词器和小写过滤器的分析器:

analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}

定义 analyzer_params 后,您可以在定义 Collection Schema 时将其应用于 VARCHAR 字段。这使得 Zilliz Cloud 能够使用指定的分析器处理该字段中的文本,以实现高效的分词和过滤。更多信息,请参阅使用示例

示例输出

以下是标准分词器处理文本的示例:

原始文本

"The Milvus vector database is built for scale!"

预期输出

["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]