跳到主要内容

连接数据源

Connector 可以轻松将各种数据源连接到向量数据库。本文将介绍什么是 Connector、Connector 的作用以及如何创建和管理 Connector。

Connector 是什么?

Connector 用于将数据从各种数据源(包括对象存储、Kafka 等)导入到 Zilliz Cloud。以对象存储 Connector 为例,它可以监控对象存储桶中的目录,并将 PDF、HTML 等文件同步到 Zilliz Cloud Pipelines,以便后续将文件转换为向量并存储在向量数据库中用于搜索。通过 Ingestion 和 Deletion Pipelines,Zilliz Cloud 能够实时同步数据,并根据对象存储中添加或删除的文件即使更新向量数据库 Collection 中的数据。

connector-overview-cn

Connector 的作用

  • 实时数据导入

    轻松实时导入数据并创建索引。确保最新内容立即可用于所有搜索查询。

  • 灵活可扩展,可适应各种场景

    轻松扩展您的数据 ingestion pipeline,免去繁琐的运维。Connector 可适应和无缝处理不断变化的流量负载,确保能够丝滑扩展。

  • 与数据源保持同步的搜索索引

    自动同步文档更新(添加和删除),实时更新搜索索引。此外,即将支持所有常见类型的数据源。

  • 观测数据流

    通过详细的日志获取数据流的洞察,确保透明度并检测可能出现的任何异常。

创建 Connector

Zilliz Cloud 支持在创建过程中灵活配置 Connector。创建后, Connector 可以根据您的设置定期扫描数据源并将数据摄取至向量数据库中。

前提条件

📘说明

当前,Zilliz Cloud Connector 及支持处理文档数据。

操作步骤

  1. 选择项目。点击左侧导航栏中的 Pipelines。选中 Connectors 标签页。点击 + Connectors。

    create-connector-cn

  2. 连接数据源。

    1. 设置 Connector 基本信息。

      参数

      描述

      Connector 名称

      待创建的 Connector 的名称。

      描述 (可选)

      Connector 描述信息。

    2. 设置数据源信息。

      参数

      描述

      对象存储服务

      选择对象存储服务。当前,您仅可以选择:

      • 阿里云 OSS

      URL

      输入数据源 URL。请确保 URL 指向文件夹而非具体某一文件。此外,不可输入根目录 URL。

      了解如何获取 URL

      对象存储服务访问凭证(可选)

      AccessKey ID 和 AccessKey Secret。

      了解如何获取AccessKey ID 和 AccessKey Secret

      点击连接并进入下一步

      📘说明

      点击连接并进入下一步后,Zilliz Cloud 会测试数据源连通性。连接数据源成功后方可进入下一步。

      link-data-source-cn

  3. 添加目标 Pipelines。

    请先选择目标集群。然后选择目标 Collection。目标 Collection 中必须含有 1 个 Ingestion Pipeline(只可含有 INDEX_DOC function) 和 1个或多个 Deletion Pipelines。如果目标 Collection 中含有多个 Deletion Pipelines,请选择一个。

    📘说明

    您可选择跳过此步骤,并在后续触发扫描前再添加目标 Pipelines。

    add-target-pipelines-cn

  4. 选择是否开启自动扫描。

    • 如不开启自动扫描,您需要在有数据更新时手动触发扫描。

    • 如开启自动扫描,Zilliz Cloud 会定期扫描数据源中的数据,并通过设置的 Ingestion 和 Deletion Pipeline 自动同步(添加或删除)数据。开启后,您需要设置自动扫描频率和运行时间。

      参数

      描述

      扫描频率

      设置自动扫描频率。

      • 每天:可选择 1~7 之间的任意整数。

      • 每小时:可选择 1、6、12、18。

      下次运行时间

      设置运行时间。时区与系统时区保持一致。

      enable-auto-scan-cn

  5. 点击创建

管理 Connector

您可以通过 Zilliz Cloud Web 控制台高效管理 Connector。

开启或关闭 Connector

  1. 找到目标 Connector。

  2. 点击操作栏下的“...”。

  3. 选择开启关闭 Connector。

📘说明

开启 Connector 前,请确保已为其添加目标 Pipelines。更多详情,请参见创建 Connector 中的步骤 3。

enable-connector-cn

手动触发扫描

如未开启自动扫描功能,您可以按需手动触发扫描。

找到目标 Connector,点击操作栏中的“...”,随后点击扫描

📘说明

手动扫描前,请确保已开启 Connector。

编辑 Connector

创建 Connector 后,您可以编辑 Connector 配置。

  • 修改对象存储服务密钥:

    • 阿里云对象存储 AccessKey ID 和 AccessKey Secret
  • 自动扫描频率。更多详情,请参考创建 Connector 中的步骤 4。

configure-connector-cn

删除 Connector

您可以删除不再使用的 Connector。

📘说明

删除 Connector 前,请先关闭 Connector。

drop-connector-cn

查看 Connector 日志

您可以通过查看 Connector 日志来监控 Connector 活动并排除故障。

  1. 通过 Connectors 事件页面查看日志。

    view-connector-logs-cn

  2. 如果 Connector 状态显示为异常,则代表 Connector 运行出错。点击状态旁的 “?”查看详细报错信息。

如需查看某一 Pipeline 下关联的所有 Connectors,请参阅查看 Pipeline 详情