Chinese

Chinese Analyzer 专门设计用于处理中文文本，提供有效的分段和分词。

定义

Chinese Analyzer 由以下部分组成：

分词器：使用 jieba 分词器根据词汇和上下文将中文文本分割成标记。
过滤器：使用 cnalphanumonly 过滤器去除包含任何非中文字符的标记。

Chinese Analyzer 的功能等同于以下自定义分析器配置：

Python
Java

analyzer_params = {
    "tokenizer": "jieba",
    "filter": ["cnalphanumonly"]
}

Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "jieba");
analyzerParams.put("filter", Arrays.asList("cnalphanumonly"));

配置

要将 Chinese Analyzer 应用于字段，只需在 analyzer_params 中将 type 设置为 chinese，并根据需要包含可选参数。

Python
Java

analyzer_params = {
    "type": "chinese",
}

Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("type", "chinese");

📘说明

Chinese Analyzer 不接受任何可选参数。

示例输出

以下是 Chinese Analyzer 处理文本的方式。

原始文本：

"Milvus 是一个高性能、可扩展的向量数据库！"

预期输出：

["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]

定义​

配置​

示例输出​

定义

配置

示例输出