指标与告警快速参考
在本手册中,您可以快速找到 Zilliz Cloud 集群监控指标的相关描述,并了解组织和项目级别的告警项。
-
组织级指标:反映账号权限范围内的所有项目的状态。
-
项目级指标:反映当前项目内的集群资源、容量、性能和数据等对象的状态。
组织级指标
组织级指标帮助您在指定组织内跟踪所有项目的费用支出情况。
指标名称 | 单位 | 描述 | 推荐操作 |
---|---|---|---|
License 有效期 | 天 | 表示离组织 License 过期前的剩余天数。 |
|
已使用 CPU 核心数 | % | 表示已使用的 CPU 核心数与 License 中包含的 CPU 核心数的比值。 |
|
项目级指标(包含集群指标)
项目告警主要关注您集群的性能方面,包括 CU 使用情况、QPS 阈值、延时问题以及请求异常等,确保您能够维持最佳的集群性能。
Pod 和容器资源
告警项 | 单位 | 描述 | 推荐操作 | 可用场景 |
---|---|---|---|---|
CPU 用量 | 核 | Pod 已使用的 CPU 核心数。 | Track trends; investigate sustained growth or spikes. 跟踪趋势、调查持续增长或快速增长的原因。 | BYOC |
CPU 使用率 | % | Pod 已使用的 CPU 与限制值之间的比值。 | 如果趋势抬升,建议优化工作负载或增加限制值。 | BYOC |
内存用量 | MB | Pod 中各容器的内存用量(不包括缓存) | 调查持续增长或可能泄露的原因。 | BYOC |
内存使用率 | % | Pod 内存使用与限制值之间的比值。 | 如果持续保持高水位,建议优化内存使用或增加限制值。 | BYOC |
入站流量 | Mbps | Pod 的入站流量 | 观察可能的拥塞,调整带宽大小到合理范围。 | BYOC |
出站流量 | Mbps | Pod 的出站流量 | 观察可能的拥塞,调整带宽大小到合理范围。 | BYOC |
资源
指标名称 | 单位 | 描述 | 推荐操作 |
---|---|---|---|
资源 | |||
Query CU 计算资源 | % | 相对于 CU 总计算能力的已使用计算能力的度量。 该指标仅适用于 Dedicated 或 BYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比。 | 70%-80%:检查服务状态并准备扩容。 > 90%:立即扩容,以避免服务中断。 |
Query CU 加载容量 | % | 相对于 CU 总容量的已使用容量的度量。 该指标仅适用于 Free, Dedicated 或 BYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比。 | 70%-80%:检查服务状态并准备扩容。 > 90%:立即扩容,以避免服务中断。 100%:当 CU 加载容量达到 100% 时,您将无法向集群写入数据。请立即扩容,以避免服务中断。 |
Query CU 总数 | 个 | 当前集群中 Query CU 总数。该数值可以通过集群 Query CU × Replica 数量计算得出。 例如,如果集群的 Query CU为 2,Replica 数量为 2,则此处显示的Query CU 规格总数为 4。 该指标仅适用于 Dedicated 或 BYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比。 | 监控该指标,可以识别 Query CU 的扩缩容事件。 |
Replica 数量 | 个 | 当前集群中的 Replica 数量。 该指标仅适用于 Dedicated 或 BYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比。 | 监控该指标,可以识别 Replica 的扩缩容事件。 |
存储用量 | GB | 数据和索引消耗的持久存储总量。 | 配置监控告警,以了解存储用量情况。 |
性能
指标名称 | 单位 | 描述 | 推荐操作 |
---|---|---|---|
读请求 QPS/ Search NQ | - | QPS:每秒读取请求(search 和 query)的数量。 Search NQ:每秒搜索(search)请求中携带的查询向量数量。Search NQ 不适用于 query 请求,因为 query 操作不涉及向量。 | 有关系统性能监控,请参阅向量数据库性能测试工具。 |
写请求 QPS/ 每秒写请求 Entity 数量 | - | QPS:每秒写入请求(insert、bulk insert、upsert 和 delete)的数量。 每秒写请求 Entity 数量:每秒向量写入请求(insert、bulk insert、upsert 和 delete)的数量。 | 有关系统性能监控,请参阅向量数据库性能测试工具。 |
读请求延时(Latency) | 毫秒 | 客户端向服务器发起读请求(search 和 query)到客户端收到响应之间的时间差。 在右侧扩展的下拉菜单中选择平均值或 P99 将显示对应的平均延时或 P99 延时。 | - |
写请求延时(Latency) | 毫秒 | 客户端向服务器发起写请求(insert、upsert 和 delete)到客户端收到响应之间的时间差。 在右侧扩展的下拉菜单中选择平均值或 P99 将显示对应的平均延时或 P99 延时。 | - |
读请求失败率 | % | 失败读请求(search 和 query)在每秒所有读请求中所占的百分比。 | 配置告警以监控读请求失败率。 |
写请求失败率 | % | 失败写请求(insert、bulk insert、upsert 和 delete)在每秒所有写请求中所占的百分比。 | 配置告警以监控写请求失败率。 |
慢查询数量 | 次/分钟 | 统计慢查询数量,包括 search 和 query 请求数。默认情况下,查询延时超过 5 秒的查询被视为慢查询。 该指标仅适用于 Dedicated 或 BYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比。 | 通过适当调整集群配置,可以识别存在问题的查询并优化性能。 |
集群写入性能使用率 | % | 集群的 insert/upsert 操作存在相应的速率限制。当前写入速率与限制的比值即为集群的写入性能利用率。 该指标仅适用于 Dedicated 或 BYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比。 | 如果该利用率过高(建议超过 80%),建议您降低写入速率。 |
Flush 次数 | 次/分钟 | 统计对集群操作的 flush 次数。 该指标仅适用于 Dedicated 或 BYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比。 | 过于频繁的 flush 操作会影响集群的整体性能。有关 flush 操作的相关限制,请参阅使用限制。 |
数据
指标名称 | 单位 | 描述 | 推荐操作 |
---|---|---|---|
Collection 数量 | 个 | 集群中已创建的 Collection 数量。 | - |
Entity 数量 | 个 | 集群中通过 Insert 和 Bulk Insert 操作插入的 Entity 总数。 在右侧扩展的下拉菜单中选择指定的 collection,将显示该 collection 中已插入的 entity 数量。 | - |
已加载 Entity 数量近似值 | 个 | 集群中已加载 Entity 数量的近似值。 在右侧扩展的下拉菜单中选择指定的 collection,将显示该 collection 中已加载的 entity 数量。 该指标仅适用于 Dedicated 或 BYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比。 | 如需查看精确、实时的 Entity 计数,请参考 Collection 详情页中的“已加载 Entity 数量”或者使用 count(*)。 |
未加载的 Collection 数量 | 个 | 统计集群中未加载的 collection 数量。 该指标仅适用于 Dedicated 或 BYOC 集群。有关更多集群类型信息,请参阅 Zilliz Cloud 版本对比。 | 可凭借该指标判断是否需要清理数据或继续加载 collection。 |