过滤器参考公测版
本节介绍各过滤器的具体信息。
Lowercase [READ MORE]
Lowercase 过滤器将分词器生成的词项转换为小写,使搜索不区分大小写。例如,它可以将 `["High", "Performance", "Vector", "Database"]` 转换为 `["high", "performance", "vector", "database"]`。
ASCII folding [READ MORE]
`asciifolding` 过滤器将基本拉丁Unicode块(前127个ASCII字符)之外的字符转换为其ASCII等效字符。例如,它将字符如 í 转换为 i,使得文本处理更加简单和一致,特别是对于多语言内容。
Alphanumonly [READ MORE]
`alphanumonly` 过滤器删除包含非ASCII字符的词项,仅保留字母数字词项。该过滤器在处理仅与基本字母和数字相关的文本时非常有用,排除任何特殊字符或符号。
Cnalphanumonly [READ MORE]
`cnalphanumonly` 过滤器删除包含除汉字、英文字母或数字以外的任何字符的词项。
Cncharonly [READ MORE]
`cncharonly` 过滤器删除包含任何非汉字的词项。当您希望专注于中文文本时,该过滤器非常有用,可以过滤掉包含其他文字、数字或符号的词项。
Length [READ MORE]
`length` 过滤器删除不符合指定长度要求的词项,使您能够控制在文本处理过程中保留的词项长度。
Stop [READ MORE]
`stop` 过滤器删除分词文本中的指定停用词,帮助消除常见且意义不大的词。您可以使用 `stopwords` 参数配置停用词列表。
Decompounder [READ MORE]
`decompounder` 过滤器根据指定的字典将复合词拆分为单个组成部分,从而更容易搜索复合术语的部分。该过滤器对于经常使用复合词的语言(如德语)特别有用。
Stemmer [READ MORE]
`stemmer` 过滤器将单词简化为其基本或根形式(称为词干提取),使得匹配不同变化形式中具有相似意义的单词变得更加容易。`stemmer` 过滤器支持多种语言,允许在各种语言环境中有效地进行搜索和索引。