版本：Cloud 开发指南

过滤器参考

本节介绍各过滤器的具体信息。

Lowercase [READ MORE]

Lowercase 过滤器将分词器生成的词项转换为小写，使搜索不区分大小写。例如，它可以将 `["High", "Performance", "Vector", "Database"]` 转换为 `["high", "performance", "vector", "database"]`。

`asciifolding` 过滤器将基本拉丁Unicode块（前127个ASCII字符）之外的字符转换为其ASCII等效字符。例如，它将字符如 í 转换为 i，使得文本处理更加简单和一致，特别是对于多语言内容。

`alphanumonly` 过滤器删除包含非ASCII字符的词项，仅保留字母数字词项。该过滤器在处理仅与基本字母和数字相关的文本时非常有用，排除任何特殊字符或符号。

`cnalphanumonly` 过滤器删除包含除汉字、英文字母或数字以外的任何字符的词项。

`cncharonly` 过滤器删除包含任何非汉字的词项。当您希望专注于中文文本时，该过滤器非常有用，可以过滤掉包含其他文字、数字或符号的词项。

`length` 过滤器删除不符合指定长度要求的词项，使您能够控制在文本处理过程中保留的词项长度。

`stop` 过滤器删除分词文本中的指定停用词，帮助消除常见且意义不大的词。您可以使用 `stopwords` 参数配置停用词列表。

`decompounder` 过滤器根据指定的字典将复合词拆分为单个组成部分，从而更容易搜索复合术语的部分。该过滤器对于经常使用复合词的语言（如德语）特别有用。

`stemmer` 过滤器将单词简化为其基本或根形式（称为词干提取），使得匹配不同变化形式中具有相似意义的单词变得更加容易。`stemmer` 过滤器支持多种语言，允许在各种语言环境中有效地进行搜索和索引。

`removepunct` 过滤器会从 token 流中移除单独存在的标点符号。

`regex` 过滤器是一种正则表达式过滤器：只有匹配你提供的表达式的 token 才会被保留，其余的都会被丢弃。