分词器参考
本节介绍各内置分词器的具体信息。
Standard 分词器 [READ MORE]
Zilliz Cloud 中的标准分词器根据空格和标点符号对文本进行分割,因此适用于大多数语言。
Whitespace [READ MORE]
空格分词器在单词之间存在空格时,将文本划分为词项。
Jieba [READ MORE]
Jieba 分词器通过将中文文本拆分为其组成的单词来处理文本。
Lindera [READ MORE]
`lindera` 分词器执行基于词典的形态素分析,专为日语和韩语设计——这两种语言的词汇之间没有空格分隔,且语法标记(助词)直接附着在词汇上。
ICU [READ MORE]
ICU 分词器基于 Unicode 国际化组件(ICU)开源项目构建,该项目为软件国际化提供了关键工具。通过使用 ICU 的断词算法,分词器能够在世界上大多数语言中准确地将文本拆分为单词。
Language Identifier [READ MORE]
语言识别器(`languageidentifier`)是一种专用分词器,用于增强 Zilliz Cloud 的文本搜索能力,它通过自动化语言分析流程来实现。其主要功能是检测文本字段的语言,然后动态应用最适合该语言的预配置分析器。这对处理多语言的应用尤为重要,因为它免去了逐条输入手动指定语言的麻烦。