版本：BYOC 开发指南

分词器参考

本节介绍各内置分词器的具体信息。

Standard 分词器 [READ MORE]

Zilliz Cloud 中的标准分词器根据空格和标点符号对文本进行分割，因此适用于大多数语言。

空格分词器在单词之间存在空格时，将文本划分为词项。

Jieba 分词器通过将中文文本拆分为其组成的单词来处理文本。

`lindera` 分词器用于根据指定的字典对文本进行词形学分析。该分词器对于诸如中文、日语和韩语等语言来说是个不错的选择。这些语言的共同点是不使用空格定义单词的边界。

ICU 分词器基于 Unicode 国际化组件（ICU）开源项目构建，该项目为软件国际化提供了关键工具。通过使用 ICU 的断词算法，分词器能够在世界上大多数语言中准确地将文本拆分为单词。

语言识别器（`languageidentifier`）是一种专用分词器，用于增强 Zilliz Cloud 的文本搜索能力，它通过自动化语言分析流程来实现。其主要功能是检测文本字段的语言，然后动态应用最适合该语言的预配置分析器。这对处理多语言的应用尤为重要，因为它免去了逐条输入手动指定语言的麻烦。