跳到主要内容

管理项目告警

项目告警功能通过对集群指标(如 CU、Query QPS)进行主动监控,在满足指定条件时发送通知,帮助您主动监控 Zilliz Cloud 集群的状态。配置项目告警后,您能在潜在问题出现时立即收到通知,确保及时处理。

开始前

在创建或管理项目告警前,请确保您拥有:

  • 组织管理员项目管理员角色权限。

查看项目告警

在左侧导航栏中点击项目告警,即可访问项目告警仪表盘。

告警历史

当您需要调查过往事件、分析告警规律或展示系统可靠性时,请选择告警历史选项卡查看。

告警设置

使用告警设置选项卡可查看所有已配置的告警及其当前状态。这为您提供了一个监控覆盖范围的集中视图。

查看告警时,您会看到以下配置项:

字段

描述

名称

告警的描述性标识(例如:“高 CU 使用率 - Dedicated 集群”、“P99查询延迟”)

状态

开关按钮显示当前告警状态:启用 (Enabled)(主动监控)或 禁用 (Disabled)(不发送通知)

目标集群

被监控的集群 - 可以是特定集群(如 “Dedicated-02, Dedicated-01”)或所有专用集群(包括未来创建的集群)

告警规则

监控参数和触发条件的组合显示(例如:“CU 容量 > 80%, 持续 >= 10 分钟”、“查询延迟 (P99) > 1000 毫秒, 持续 >= 10 分钟”)

告警等级

影响等级分类

  • 警告:接近限制

  • 紧急:需要立即关注

告警接收

通知接收者,包括配置的邮箱地址和通知渠道。

可用通知渠道列表请参阅管理告警渠道

操作

可用的管理选项:编辑、克隆、删除

创建项目告警

设置新的告警规则,从不同维度监控集群的性能和健康状态。

管理项目告警

修改、整理和维护现有告警,确保监控始终相关且高效。

📘Notes

您可以通过 RESTful API 管理告警。有关具体信息,请参考 Update Alert RuleDelete Alert Rule

禁用或启用项目告警

在不丢失配置的情况下控制主动监控。

  • 禁用告警:停止发送通知,但保留所有设置。

  • 启用告警:主动监控集群,并在阈值被突破时发送通知。

编辑项目告警

当监控需求变化时,更新告警配置。

可修改任何告警参数,包括:

  • 阈值和比较运算符

  • 目标集群和指标类型

  • 通知接收者和渠道

  • 严重级别和持续时间设置

复制项目告警

以最小的设置工作量创建相似的告警。复制操作会复制所有现有设置,使您可以:

  • 为不同的集群环境创建类似告警模板

  • 调整阈值同时保持其他参数不变

  • 跨多个项目扩展监控范围

删除项目告警

您可以删除不需要的项目告警。

🚧警告

告警删除是永久性的且无法撤销。请确保不再需要该告警后再进行操作。

配置告警接收设置

设置项目范围内的默认通知设置,确保团队采用一致的监控实践。

配置设置时,您会遇到以下概念:

  • 发送给:为新告警自动选择的默认通知渠道(邮箱、企业微信、Webhook)。配置您最常用的渠道可简化告警创建流程。

  • 告警恢复通知:启用后,当告警恢复(条件不再满足)时您将收到通知。

  • 将设置应用于现有告警:选择是否用新的默认设置更新所有现有告警。

FAQ

告警触发后,我会多久收到一次通知?

告警通知遵循自动频率模式:

  • 首次通知:告警阈值被突破时立即发送。

  • 第二次通知:如果条件持续存在,1小时后发送。

  • 后续通知:只要告警条件仍处于活动状态,每天发送一次。

如果您觉得通知过于频繁,可以:

  • 编辑告警以调整条件阈值或持续时间要求。

  • 暂时禁用告警以停止所有通知(同时保留配置)。