跳到主要内容

Chinese
公测版

Chinese Analyzer 专门设计用于处理中文文本,提供有效的分段和分词。

定义

Chinese Analyzer 由以下部分组成:

  • 分词器:使用 jieba 分词器根据词汇和上下文将中文文本分割成标记。

  • 过滤器:使用 cnalphanumonly 过滤器去除包含任何非中文字符的标记。

Chinese Analyzer 的功能等同于以下自定义分析器配置:

analyzer_params = {
"tokenizer": "jieba",
"filter": ["cnalphanumonly"]
}

配置

要将 Chinese Analyzer 应用于字段,只需在 analyzer_params 中将 type 设置为 chinese,并根据需要包含可选参数。

analyzer_params = {
"type": "chinese",
}
📘说明

Chinese Analyzer 不接受任何可选参数。

示例输出

以下是 Chinese Analyzer 处理文本的方式。

原始文本

"Milvus 是一个高性能、可扩展的向量数据库!"

预期输出

["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]