跳到主要内容
版本:BYOC 开发指南

Analyzer

在文本处理中,Analyzer 是一个关键组件,用于将原始文本转换为结构化、可搜索的格式。每个分析器通常由两个核心元素组成:分词器(tokenizer)和过滤器(filter)。它们共同将输入文本转换为词元(token),并对这些词元进行优化,以便为高效的索引和检索做好准备。本章将详细介绍如何在 Zilliz Cloud 中使用分析器。

多语言 Analyzer [READ MORE]

当 Zilliz Cloud 执行文本分析时,通常会在一个 Collection 的整个文本字段上应用单一 Analyzer。如果该 Analyzer 针对英语进行了优化,它在处理其他语言(如中文、西班牙语或法语)所需的分词和词干规则时就会遇到困难,从而导致召回率降低。例如,搜索西班牙语单词 “teléfono”(意为“电话”)时,英文 Analyzer 可能会忽略重音符号,也不会应用西班牙语特有的词干提取,导致相关结果被遗漏。