跳到主要内容

指标与告警快速参考

在本手册中,您可以快速找到 Zilliz Cloud 集群监控指标的相关描述,并了解组织和项目级别的告警项。

集群指标

Zilliz Cloud 控制台中的指标页签展示了各类集群指标图表。

下表描述了各指标的具体含义以及当您的集群资源使用超过阈值时建议执行的操作。

指标名称

单位

描述

推荐操作

资源

Read vCUs

vCU

Search 和 Query 操作消耗的 vCU 用量。

该指标仅适用于 FreeServerless 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本类型

-

Write vCUs

vCU

Insert、Delete 和 Upsert 操作消耗的 vCU 用量。

该指标仅适用于 FreeServerless 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本类型

-

CU 计算资源

%

相对于 CU 总计算能力的已使用计算能力的度量。

该指标仅适用于 DedicatedBYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本类型

70%-80%:检查服务状态并准备扩容

> 90%:立即扩容,以避免服务中断。

CU 加载容量

%

相对于 CU 总容量的已使用容量的度量。

该指标仅适用于 Free, DedicatedBYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本类型

70%-80%:检查服务状态并准备扩容

> 90%:立即扩容,以避免服务中断。

100%:当 CU 加载容量达到 100% 时,您将无法向集群写入数据。请立即扩容,以避免服务中断。

存储用量

GB

数据和索引消耗的持久存储总量。

配置监控告警,以了解存储用量情况。

性能

读请求 QPS/VPS

QPS/VPS

QPS:每秒读取请求(search 和 query)的数量。

VPS:每秒向量读取请求(search)的数量。VPS 不适用于 query 请求,因为 query 操作不涉及向量。

有关系统性能监控,请参阅向量数据库性能测试工具

写请求 QPS/VPS

QPS/VPS

QPS:每秒写入请求(insert、bulk insert、upsert 和 delete)的数量。

VPS:每秒向量写入请求(insert、bulk insert、upsert 和 delete)的数量。

有关系统性能监控,请参阅向量数据库性能测试工具

读请求延时(Latency)

毫秒

客户端向服务器发起读请求(search 和 query)到客户端收到响应之间的时间差。

在右侧扩展的下拉菜单中选择平均值P99 将显示对应的平均延时或 P99 延时。

-

写请求延时(Latency)

毫秒

客户端向服务器发起写请求(insert、upsert 和 delete)到客户端收到响应之间的时间差。

在右侧扩展的下拉菜单中选择平均值P99 将显示对应的平均延时或 P99 延时。

-

读请求失败率

%

失败读请求(search 和 query)在每秒所有读请求中所占的百分比。

配置告警以监控读请求失败率。

写请求失败率

%

失败写请求(insert、bulk insert、upsert 和 delete)在每秒所有写请求中所占的百分比。

配置告警以监控写请求失败率。

慢查询数量

次/分钟

统计慢查询数量,包括 search 和 query 请求数。默认情况下,查询延时超过 5 秒的查询被视为慢查询。

该指标仅适用于 DedicatedBYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本类型

通过适当调整集群配置,可以识别存在问题的查询并优化性能。

集群写入性能使用率

%

集群的 insert/upsert 操作存在相应的速率限制。当前写入速率与限制的比值即为集群的写入性能利用率。

该指标仅适用于 DedicatedBYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本类型

如果该利用率过高(建议超过 80%),建议您降低写入速率。

Flush 次数

次/分钟

统计对集群操作的 flush 次数。

该指标仅适用于 DedicatedBYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本类型

过于频繁的 flush 操作会影响集群的整体性能。有关 flush 操作的相关限制,请参阅使用限制

数据

Collection 数量

集群中已创建的 Collection 数量。

-

Entity 数量

集群中已插入的 Entity 总数。

在右侧扩展的下拉菜单中选择指定的 collection,将显示该 collection 中已插入的 entity 数量。

-

已加载 Entity 数量

集群中已加载的 Entity 数量。

在右侧扩展的下拉菜单中选择指定的 collection,将显示该 collection 中已加载的 entity 数量。

该指标仅适用于 DedicatedBYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本类型

-

未加载的 Collection 数量

统计集群中未加载的 collection 数量。

该指标仅适用于 DedicatedBYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本类型

可凭借该指标判断是否需要清理数据或继续加载 collection。

组织告警

组织告警用于提醒您账单相关的重要信息,如信用卡到期提醒、优惠券使用情况、现金余额警示以及用量金额相关的告警通知。

告警项

单位

描述

推荐操作

默认告警条件

优惠券

跟踪优惠券的余额,当额度低时提醒用户及时充值。

充值以维持账户功能。

优惠券余额小于 ¥10 时触发警告告警。

优惠券有效期

监控优惠券的剩余有效期,鼓励用户使用或延期。

延长有效期或在额度过期前使用。

优惠券有效期小于 0 天时触发警告告警。

现金余额

¥

监控预付款余额,当余额低时提醒用户以防服务中断。

为预付款余额增加资金以避免服务中断。

现金余额小于 ¥100 时触发紧急告警。

用量金额

¥

跟踪使用金额,当超过设定阈值时通知用户,建议监控和管理。

监控和管理使用以保持在预算限额内。

用量金额大于 ¥100 时触发警告告警。

项目告警

项目告警主要关注您集群的性能方面,包括 CU 使用情况、QPS 阈值、延时问题以及请求异常等,确保您能够维持最佳的集群性能。

默认告警项

Zilliz Cloud 提供预定义的默认告警项,以帮助您快速识别关键问题并采取适当的解决方案。

如需了解集群资源使用超过阈值时建议执行的操作,请参阅集群指标

告警项

单位

默认告警条件

CU 加载容量

%

警告:CU 加载容量大于 70% 且持续时间超过 10 分钟时触发告警。

紧急:CU 加载容量大于 90% 且持续时间超过 10 分钟时触发告警。

Query 延时(P99)

ms

Query 类型 P99 请求延时大于 1000 ms 且持续时间超过 10 分钟时触发警告告警。

Search 延时(P99)

ms

Search 类型 P99 请求延时大于 1000 ms 且持续时间超过 10 分钟时触发警告告警。

Query(QPS)

QPS

Query 类型请求数大于 50 QPS 且持续时间超过 10 分钟时触发警告告警。

Search(QPS)

QPS

Search 类型请求数大于 50 QPS 且持续时间超过 10 分钟时触发警告告警。

CU 计算资源

%

警告:CU 计算资源用量大于 70% 且持续时间超过 10 分钟时触发告警。

紧急:CU 计算资源用量大于 90% 且持续时间超过 10 分钟时触发告警。

自定义告警项

除了预定义的默认项目告警项之外,您还可以根据需要配置自定义的告警项。

告警项

描述

资源

存储容量

监控存储用量,并在用量超过一定时间段的阈值后发送通知。

性能(读与写请求)

Bulk Insert(QPS)

监控批量 Insert 操作的速率,并在速率超过一定时间段的阈值后发送通知。

Delete (QPS)

监控删除操作的速率,并在速率超过一定时间段的阈值后发送通知。

Delete(VPS)

监控向量删除操作的速率,并在速率超过一定时间段的阈值后发送通知。

Flush 次数

监控对集群操作的 flush 次数,并在速率超过一定时间段的阈值后发送通知。

Insert (QPS)

监控 Insert 操作的速率,并在速率超过一定时间段的阈值后发送通知。

Insert(VPS)

监控向量 Insert 操作的速率,并在速率超过一定时间段的阈值后发送通知。

Query(QPS)

监控 Query 操作的速率,并在速率超过一定时间段的阈值后发送通知。

Search(QPS)

监控 Search 操作的速率,并在速率超过一定时间段的阈值后发送通知。

Search (VPS)

监控向量 Search 操作的速率,并在速率超过一定时间段的阈值后发送通知。

Upsert (QPS)

监控 Upsert 操作的速率,并在速率超过一定时间段的阈值后发送通知。

Upsert(VPS)

监控向量 Upsert 操作的速率,并在速率超过一定时间段的阈值后发送通知。

集群写入性能使用率

监控集群的 insert/upsert 操作的速率,并在速率超过一定时间段的阈值后发送通知。

性能(延时)

Delete 延时(P99)

监控删除请求的 P99 延时,并在延时超过一定时间段的阈值后发送通知。

Delete 延时(平均)

监控删除请求的平均延时,并在延时超过一定时间段的阈值后发送通知。

Insert 延时(P99)

监控 Insert 请求的 P99 延时,并在延时超过一定时间段的阈值后发送通知。

Insert 延时(平均)

监控 Insert 请求的平均延时,并在延时超过一定时间段的阈值后发送通知。

Query 延时 (P99)

监控 Query 请求的 P99 延时,并在延时超过一定时间段的阈值后发送通知。

Query 延时(平均)

监控 Query 请求的平均延时,并在延时超过一定时间段的阈值后发送通知。

Search 延时(P99)

监控 Search 请求的 P99 延时,并在延时超过一定时间段的阈值后发送通知。

Search 延时(平均)

监控 Search 请求的平均延时,并在延时超过一定时间段的阈值后发送通知。

Upsert 延时(P99)

监控 Upsert 请求的 P99 延时,并在延时超过一定时间段的阈值后发送通知。

Upsert 延时(平均)

监控 Upsert 请求的平均延时,并在延时超过一定时间段的阈值后发送通知。

性能(请求失败率)

Bulk Insert 请求失败率

监控批量 Insert 请求的失败率,并在失败率超过一定时间段的阈值后发送通知。

Delete 请求失败率

监控删除请求的失败率,并在失败率超过一定时间段的阈值后发送通知。

Insert 请求失败率

监控 Insert 请求的失败率,并在失败率超过一定时间段的阈值后发送通知。

Query 请求失败率

监控 Query 请求的失败率,并在失败率超过一定时间段的阈值后发送通知。

Search 请求失败率

监控 Search 请求的失败率,并在失败率超过一定时间段的阈值后发送通知。

Upsert 请求失败率

监控 Upsert 请求的失败率,并在失败率超过一定时间段的阈值后发送通知。

慢查询数量

监控慢查询数量,并在数量超过一定时间段的阈值后发送通知。

数据

Collection 数量

监控已创建的 Collection 数量,并在数量超过一定时间段的阈值后发送通知。

Entity 数量

监控已插入的 Entity 总数,并在数量超过一定时间段的阈值后发送通知。

已加载 Entity 数量

监控已加载的 Entity 数量,并在数量超过一定时间段的阈值后发送通知。

未加载的 Collection 数量

监控未加载的 Collection 数量,并在数量超过一定时间段的阈值后发送通知。

其他

集群状态异常

监控集群的状态,包括检查集群的负载和资源使用情况,并在集群异常状态时发送告警通知。

集群禁止写入

监控和指示集群是否处于只读状态,以便及时发现潜在的容量、性能或系统健康问题,一旦触发该告警,意味着集群应用已受影响,需要尽快采取扩容等措施。