Jieba公测版
Jieba 分词器通过将中文文本拆分为其组成的单词来处理文本。
配置
要使用 Jieba 分词器配置分析器,请在 analyzer_params
中将 tokenizer
设置为 jieba
。
- Python
- Java
analyzer_params = {
"tokenizer": "jieba",
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "jieba");
定义 analyzer_params
后,您可以在定义 Collection Schema 时将其应用于 VARCHAR 字段。这使得 Zilliz Cloud 能够使用指定的分析器处理该字段中的文本,以实现高效的分词和过滤。更多信息,请参阅使用示例。
示例输出
以下是 Jieba 分词器处理文本的示例:
原始文本:
"Milvus 是一个高性能、可扩展的向量数据库!"
预期输出:
["Milvus", " ", "是", "一个", "高性", "性能", "高性能", "、", "可", "扩展", "的", "向量", "数据", "据库", "数据库", "!"]