分词器参考
本节介绍各内置分词器的具体信息。
Standard 分词器 [READ MORE]
Zilliz Cloud 中的标准分词器根据空格和标点符号对文本进行分割,因此适用于大多数语言。
Whitespace [READ MORE]
空格分词器在单词之间存在空格时,将文本划分为词项。
Jieba [READ MORE]
Jieba 分词器通过将中文文本拆分为其组成的单词来处理文本。
Lindera [READ MORE]
`lindera` 分词器用于根据指定的字典对文本进行词形学分析。该分词器对于诸如中文、日语和韩语等语言来说是个不错的选择。这些语言的共同点是不使用空格定义单词的边界。
ICU [READ MORE]
ICU 分词器基于 Unicode 国际化组件(ICU)开源项目构建,该项目为软件国际化提供了关键工具。通过使用 ICU 的断词算法,分词器能够在世界上大多数语言中准确地将文本拆分为单词。
Language Identifier [READ MORE]
语言识别器(`languageidentifier`)是一种专用分词器,用于增强 Zilliz Cloud</zilliz> 的文本搜索能力,它通过自动化语言分析流程来实现。其主要功能是检测文本字段的语言,然后动态应用最适合该语言的预配置分析器。这对处理多语言的应用尤为重要,因为它免去了逐条输入手动指定语言的麻烦。