管理项目告警
项目告警功能通过对集群指标(如 CU、Query QPS)进行主动监控,在满足指定条件时发送通知,帮助您主动监控 Zilliz Cloud 集群的状态。配置项目告警后,您能在潜在问题出现时立即收到通知,确保及时处理。
开始前
在创建或管理项目告警前,请确保您拥有:
- 组织管理员或项目管理员角色权限。
查看项目告警
在左侧导航栏中点击项目告警,即可访问项目告警仪表盘。
告警历史
当您需要调查过往事件、分析告警规律或展示系统可靠性时,请选择告警历史选项卡查看。
告警设置
- Cloud Console
- Bash
使用告警设置选项卡可查看所有已配置的告警及其当前状态。这为您提供了一个监控覆盖范围的集中视图。
查看告警时,您会看到以下配置项:
字段 | 描述 |
---|---|
名称 | 告警的描述性标识(例如:“高 CU 使用率 - Dedicated 集群”、“P99查询延迟”) |
状态 | 开关按钮显示当前告警状态:启用 (Enabled)(主动监控)或 禁用 (Disabled)(不发送通知) |
目标集群 | 被监控的集群 - 可以是特定集群(如 “Dedicated-02, Dedicated-01”)或所有专用集群(包括未来创建的集群) |
告警规则 | 监控参数和触发条件的组合显示(例如:“CU 容量 > 80%, 持续 >= 10 分钟”、“查询延迟 (P99) > 1000 毫秒, 持续 >= 10 分钟”) |
告警等级 | 影响等级分类
|
告警接收 | 通知接收者,包括配置的邮箱地址和通知渠道。 可用通知渠道列表请参阅管理告警渠道。 |
操作 | 可用的管理选项:编辑、克隆、删除 |
您可以查看项目内创建的告警列表。有关各参数具体含义,请参考 List Alert Rules。
export BASE_URL=https://api.cloud.zilliz.com.cn
export PROJECT_ID=proj-bf71ce2fd4f3785d*****
export API_KEY=c84c9a9515**********81319c2f147ffdd47ad6c36b31c126d1b790f457619c23237eba9287de73575943d2bfebcecd728bd07e
curl --request GET \
--url "${BASE_URL}/v2/alertRules?projectId=${PROJECT_ID}" \
--header "Authorization: Bearer ${API_KEY}" \
--header "Accept: application/json" \
--header "Content-type: application/json"
创建项目告警
- Cloud Console
- Bash
设置新的告警规则,从不同维度监控集群的性能和健康状态。
您可以为特定或全部 Dedicated 集群创建告警。有关各参数具体含义,请参考 Create Alert Rule。
export BASE_URL=https://api.cloud.zilliz.com.cn
export PROJECT_ID=proj-bf71ce2fd4f3785d*****
export API_KEY=c84c9a9515**********81319c2f147ffdd47ad6c36b31c126d1b790f457619c23237eba9287de73575943d2bfebcecd728bd07e
curl --request POST \
--url "${BASE_URL}/v2/alertRules" \
--header "Authorization: Bearer ${API_KEY}" \
--header "Accept: application/json" \
--header "Content-type: application/json" \
--data-raw '{
"projectId": "'"${PROJECT_ID}"'",
"ruleName": "High CU Computation",
"level": "CRITICAL",
"metricName": "CU_COMPUTATION",
"metricUnit": "percent",
"threshold": 80,
"windowSize": 10,
"comparisonMethod": "GREATER_THAN",
"targetClusterIds": ["in01-fbc09dde0a4bfc5"],
"enabled": true,
"sendResolved": true,
"actions": [
{
"type": "EMAIL",
"config": {
"recipients": {
"members": ["leryn.li@zilliz.com"],
"orgRoles": ["OWNER"],
"projectRoles": ["OWNER"]
}
}
}
]
}'
管理项目告警
修改、整理和维护现有告警,确保监控始终相关且高效。
您可以通过 RESTful API 管理告警。有关具体信息,请参考 Update Alert Rule 和 Delete Alert Rule。
禁用或启用项目告警
在不丢失配置的情况下控制主动监控。
-
禁用告警:停止发送通知,但保留所有设置。
-
启用告警:主动监控集群,并在阈值被突破时发送通知。
编辑项目告警
当监控需求变化时,更新告警配置。
可修改任何告警参数,包括:
-
阈值和比较运算符
-
目标集群和指标类型
-
通知接收者和渠道
-
严重级别和持续时间设置
复制项目告警
以最小的设置工作量创建相似的告警。复制操作会复制所有现有设置,使您可以:
-
为不同的集群环境创建类似告警模板
-
调整阈值同时保持其他参数不变
-
跨多个项目扩展监控范围
删除项目告警
您可以删除不需要的项目告警。
告警删除是永久性的且无法撤销。请确保不再需要该告警后再进行操作。
配置告警接收设置
设置项目范围内的默认通知设置,确保团队采用一致的监控实践。
配置设置时,您会遇到以下概念:
-
发送给:为新告警自动选择的默认通知渠道(邮箱、企业微信、Webhook)。配置您最常用的渠道可简化告警创建流程。
-
告警恢复通知:启用后,当告警恢复(条件不再满足)时您将收到通知。
-
将设置应用于现有告警:选择是否用新的默认设置更新所有现有告警。
FAQ
告警触发后,我会多久收到一次通知?
告警通知遵循自动频率模式:
-
首次通知:告警阈值被突破时立即发送。
-
第二次通知:如果条件持续存在,1小时后发送。
-
后续通知:只要告警条件仍处于活动状态,每天发送一次。
如果您觉得通知过于频繁,可以: