跳到主要内容

Jieba
公测版

Jieba 分词器通过将中文文本拆分为其组成的单词来处理文本。

配置

要使用 Jieba 分词器配置分析器,请在 analyzer_params 中将 tokenizer 设置为 jieba

analyzer_params = {
"tokenizer": "jieba",
}

定义 analyzer_params 后,您可以在定义 Collection Schema 时将其应用于 VARCHAR 字段。这使得 Zilliz Cloud 能够使用指定的分析器处理该字段中的文本,以实现高效的分词和过滤。更多信息,请参阅使用示例

示例输出

以下是 Jieba 分词器处理文本的示例:

原始文本

"Milvus 是一个高性能、可扩展的向量数据库!"

预期输出

["Milvus", " ", "是", "一个", "高性", "性能", "高性能", "、", "可", "扩展", "的", "向量", "数据", "据库", "数据库", "!"]