Standard公测版
Zilliz Cloud 中的标准分词器根据空格和标点符号对文本进行分割,因此适用于大多数语言。
配置
要使用标准分词器配置分析器,请在 analyzer_params
中将 tokenizer
设置为 standard
。
- Python
- Java
analyzer_params = {
"tokenizer": "standard",
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "standard");
标准分词器可以与一个或多个过滤器结合使用。例如,以下代码定义了一个使用标准分词器和小写过滤器的分析器:
- Python
- Java
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "standard");
analyzerParams.put("filter", Collections.singletonList("lowercase"));
定义 analyzer_params
后,您可以在定义 Collection Schema 时将其应用于 VARCHAR 字段。这使得 Zilliz Cloud 能够使用指定的分析器处理该字段中的文本,以实现高效的分词和过滤。更多信息,请参阅使用示例。
示例输出
以下是标准分词器处理文本的示例:
原始文本:
"The Milvus vector database is built for scale!"
预期输出:
["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]