跳到主要内容
版本:BYOC 开发指南

指标与告警快速参考

在本手册中,您可以快速找到 Zilliz Cloud 集群监控指标的相关描述,并了解组织和项目级别的告警项。

  • 组织级指标:反映账号权限范围内的所有项目的状态。

  • 项目级指标:反映当前项目内的集群资源、容量、性能和数据等对象的状态。

📘说明

大多数的指标支持设置告警。当某个指标达到指定条件(如时间窗口或阈值)时,会触发告警。关于如何配置告警,可以参考管理组织告警管理项目告警

组织级指标

组织级指标帮助您在指定组织内跟踪所有项目的费用支出情况。

指标名称

单位

描述

推荐操作

License 有效期

表示离组织 License 过期前的剩余天数。

  • <strong><60 天</strong>:可以开始续期操作。

  • 已过期 :应当立即续期或升级操作,避免影响业务(如创建新集群或集群扩容等)。

已使用 CPU 核心数

%

表示已使用的 CPU 核心数与 License 中包含的 CPU 核心数的比值。

  • >70%:评估未来需求,计划续期或升级。

  • 100%:应该立即续期或升级,避免影响业务。

项目级指标(包含集群指标)

项目告警主要关注您集群的性能方面,包括 CU 使用情况、QPS 阈值、延时问题以及请求异常等,确保您能够维持最佳的集群性能。

Pod 和容器资源

告警项

单位

描述

推荐操作

可用场景

CPU 用量

Pod 已使用的 CPU 核心数。

Track trends; investigate sustained growth or spikes.

跟踪趋势、调查持续增长或快速增长的原因。

BYOC

CPU 使用率

%

Pod 已使用的 CPU 与限制值之间的比值。

如果趋势抬升,建议优化工作负载或增加限制值。

BYOC

内存用量

MB

Pod 中各容器的内存用量(不包括缓存)

调查持续增长或可能泄露的原因。

BYOC

内存使用率

%

Pod 内存使用与限制值之间的比值。

如果持续保持高水位,建议优化内存使用或增加限制值。

BYOC

入站流量

Mbps

Pod 的入站流量

观察可能的拥塞,调整带宽大小到合理范围。

BYOC

出站流量

Mbps

Pod 的出站流量

观察可能的拥塞,调整带宽大小到合理范围。

BYOC

资源

指标名称

单位

描述

推荐操作

资源

Query CU 计算资源

%

相对于 CU 总计算能力的已使用计算能力的度量。

该指标仅适用于 DedicatedBYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比

70%-80%:检查服务状态并准备扩容

> 90%:立即扩容,以避免服务中断。

Query CU 加载容量

%

相对于 CU 总容量的已使用容量的度量。

该指标仅适用于 Free, DedicatedBYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比

70%-80%:检查服务状态并准备扩容

> 90%:立即扩容,以避免服务中断。

100%:当 CU 加载容量达到 100% 时,您将无法向集群写入数据。请立即扩容,以避免服务中断。

Query CU 总数

当前集群中 Query CU 总数。该数值可以通过集群 Query CU × Replica 数量计算得出。


例如,如果集群的 Query CU为 2,Replica 数量为 2,则此处显示的Query CU 规格总数为 4。

该指标仅适用于 DedicatedBYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比

监控该指标,可以识别 Query CU 的扩缩容事件。

Replica 数量

当前集群中的 Replica 数量。

该指标仅适用于 DedicatedBYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比

监控该指标,可以识别 Replica 的扩缩容事件。

存储用量

GB

数据和索引消耗的持久存储总量。

配置监控告警,以了解存储用量情况。

性能

指标名称

单位

描述

推荐操作

读请求 QPS/ Search NQ

-

QPS:每秒读取请求(search 和 query)的数量。

Search NQ:每秒搜索(search)请求中携带的查询向量数量。Search NQ 不适用于 query 请求,因为 query 操作不涉及向量。

有关系统性能监控,请参阅向量数据库性能测试工具

写请求 QPS/ 每秒写请求 Entity 数量

-

QPS:每秒写入请求(insert、bulk insert、upsert 和 delete)的数量。

每秒写请求 Entity 数量:每秒向量写入请求(insert、bulk insert、upsert 和 delete)的数量。

有关系统性能监控,请参阅向量数据库性能测试工具

读请求延时(Latency)

毫秒

客户端向服务器发起读请求(search 和 query)到客户端收到响应之间的时间差。

在右侧扩展的下拉菜单中选择平均值P99 将显示对应的平均延时或 P99 延时。

-

写请求延时(Latency)

毫秒

客户端向服务器发起写请求(insert、upsert 和 delete)到客户端收到响应之间的时间差。

在右侧扩展的下拉菜单中选择平均值P99 将显示对应的平均延时或 P99 延时。

-

读请求失败率

%

失败读请求(search 和 query)在每秒所有读请求中所占的百分比。

配置告警以监控读请求失败率。

写请求失败率

%

失败写请求(insert、bulk insert、upsert 和 delete)在每秒所有写请求中所占的百分比。

配置告警以监控写请求失败率。

慢查询数量

次/分钟

统计慢查询数量,包括 search 和 query 请求数。默认情况下,查询延时超过 5 秒的查询被视为慢查询。

该指标仅适用于 DedicatedBYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比

通过适当调整集群配置,可以识别存在问题的查询并优化性能。

集群写入性能使用率

%

集群的 insert/upsert 操作存在相应的速率限制。当前写入速率与限制的比值即为集群的写入性能利用率。

该指标仅适用于 DedicatedBYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比

如果该利用率过高(建议超过 80%),建议您降低写入速率。

Flush 次数

次/分钟

统计对集群操作的 flush 次数。

该指标仅适用于 DedicatedBYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比

过于频繁的 flush 操作会影响集群的整体性能。有关 flush 操作的相关限制,请参阅使用限制

数据

指标名称

单位

描述

推荐操作

Collection 数量

集群中已创建的 Collection 数量。

-

Entity 数量

集群中通过 Insert 和 Bulk Insert 操作插入的 Entity 总数。

在右侧扩展的下拉菜单中选择指定的 collection,将显示该 collection 中已插入的 entity 数量。

-

已加载 Entity 数量近似值

集群中已加载 Entity 数量的近似值。

在右侧扩展的下拉菜单中选择指定的 collection,将显示该 collection 中已加载的 entity 数量。

该指标仅适用于 DedicatedBYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比

如需查看精确、实时的 Entity 计数,请参考 Collection 详情页中的“已加载 Entity 数量”或者使用 count(*)

未加载的 Collection 数量

统计集群中未加载的 collection 数量。

该指标仅适用于 DedicatedBYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比

可凭借该指标判断是否需要清理数据或继续加载 collection。