数据弹性
Zilliz Cloud 作为全托管的向量数据库服务,提供企业级的**高可用性(High Availability, HA)和灾难恢复(Disaster Recovery, DR)**能力,确保您的关键业务数据和服务在各种故障场景下的持续可用性。
核心能力
-
高可用性(HA):通过自动故障检测和快速切换机制,确保服务在节点、可用区或地域级故障时的持续运行
-
灾难恢复(DR):提供完善的备份和恢复策略,在重大故障事件后快速恢复业务运营
-
灵活的弹性层级:从标准版到企业级跨地域部署,满足不同业务场景的 RPO/RTO 需求
-
成本优化:根据业务价值和风险容忍度,选择最具成本效益的弹性方案
关键概念
核心指标
-
恢复点目标(RPO)
可容忍的最大数据丢失量,以时间为衡量单位。例如,RPO 为 5 分钟意味着在故障发生时,最多可能丢失最近 5 分钟的数据更新。
-
恢复时间目标(RTO)
从故障发生到服务完全恢复正常运行所需的最长时间。这包括故障检测、切换决策和实际恢复过程。
-
服务等级协议(Uptime SLA)
Zilliz Cloud 对服务可用性的承诺,通常以百分比表示(如 99.95% 表示每月停机时间不超过 21.6 分钟)。
容错范围
-
节点级容错:单个计算或存储节点故障
-
可用区级容错:整个可用区不可用(如数据中心故障)
-
地域级容错:整个地域服务中断(如自然灾害)
-
云平台级容错:跨云部署,防范单一云服务商风险
弹性架构层级
高可用(HA)层级
层级 | 描述 | RPO | RTO | 写入延迟/复制方案 | 容错能力 | SLA | 相对成本 |
|---|---|---|---|---|---|---|---|
标准版 | 单地域、单可用区内部署配备多副本机制 | 0 秒 | ≤ 1 分钟 | 写入单个 AZ , WAL多副本Quorum | 节点级故障可用区数:1地域数:1 | 无SLA承诺 | 低 |
企业版 | 单地域内跨 3 个可用区部署自动故障切换 | 0 秒 | ≤ 1 分钟 | 写入跨 AZ,WAL多副本Quorum | 可用区级故障可用区数:3地域数:1 | 99.95% | 中 |
企业版多副本 | 同地域多活副本架构读写分离,快速切换 | 0 秒 | ≤ 10 秒 | 写入跨 AZ,内粗多副本间基于WAL同步 | 可用区级故障可用区数:3地域数:1 | 99.99% | 中-高 |
跨地域高可用 | 多地域/多云部署全球负载均衡 | ≤ 10 秒 | 手动切换或自动改自动:≤ 3 分钟 | 同步写入跨 AZ 多副本异步复制到其他地域/云 | 地域级故障可用区数:≥3地域数:≥2 | 99.99% | 高 |
灾难恢复(DR)层级
层级 | 描述 | RPO | Restore速度 | 备份策略 | 适用场景 | 额外成本 |
|---|---|---|---|---|---|---|
本地备份 | 同地域对象存储备份定时全量备份 | 小时级 | 数分钟至数小时 | 全量备份 | 数据误删除逻辑错误恢复 | 低 |
跨地域备份 | 备份数据异地存储防范地域级灾难 | 小时级 | 数分钟至数小时 | 全量备份多区域/多云复制 | 地域级灾难合规性要求 | 中 |
增量备份 | 实时增量备份细粒度恢复点 | ≤ 1 分钟 | 数分钟至数小时 | 持续增量捕获事务日志备份 | 关键业务精确时间点恢复 | 中-高 |
跨地域高可用功能将在 2025 年 11 月上线,增量备份功能将在 2025 年 12 月上线。
快速选择指南
业务分级与弹性选择
Tier 1 - 关键核心业务
-
特征:24/7 运行,分钟级停机即造成重大损失,业务价值极高
-
建议方案:跨地域高可用 + 企业版多副本 + 连续数据保护
-
目标:RPO = 0 秒,RTO < 30 秒,跨云/地域容灾能力
-
预期成本:高
Tier 2 - 重要业务系统
-
特征:24/7 运行,稳定性要求较高
-
建议方案:企业版多副本 + 跨地域备份
-
目标:RPO = 0 秒,RTO < 30 秒
-
预期成本:中-高
Tier 3 - 一般业务应用
-
特征:业务时间运行,成本敏感,接受故障时有一定的恢复时间
-
建议方案:企业版 + 本地备份
-
目标:RPO = 0 秒,RTO < 3 分钟
-
预期成本:低-中
Tier 4 - 非核心业务
-
特征:非关键系统,成本敏感,可接受计划维护窗口
-
建议方案:标准版 + 本地备份
-
目标:RPO = 0 秒,RTO < 3 分钟
-
预期成本:低-中
成本优化决策矩阵
业务影响等级 | 数据价值 | 合规要求 | 推荐方案 | 成本级别 |
|---|---|---|---|---|
极高 | 极高 | 严格 | 跨地域高可用 + 全套 DR | 高 |
高 | 高 | 中等 | 企业版多副本 + 跨地域备份 | 中-高 |
中 | 中等 | 一般 | 企业版 + 本地备份 | 中 |
低 | 低 | 无 | 标准版 + 基础备份 | 低 |
常见问题解答
Q1: 标准版与企业版如何实现高可用?
架构设计
Zilliz Cloud 采用存算分离架构,数据分为三类:
-
元数据:存储于 etcd(3 副本,RAFT 协议)
-
日志数据:存储于自研 Woodpecker(Quorum 协议)
-
原始与索引数据:存储于对象存储,继承云存储的高可用
计算节点高可用
-
基于 Kubernetes 自动调度
-
单机 / 单 AZ 故障时自动拉起 Pod
-
Coordinator 自动将 segment 重分配至其他 QueryNode
-
从存储中加载索引与数据,恢复时间 < 1 分钟
成本优化
采用「多持久化副本 + 内存动态加载」:
-
避免多内存副本带来的成本翻倍
-
简化容灾架构复杂度
-
充分利用日志和对象存储带宽,加速恢复
Q2: 多副本机制如何工作?
核心机制
-
Shard 层面:多个 StreamNode 共同加载,存在主备关系
-
Segment 层面:多个 QueryNode 共同加载,数据仍单份持久化
读写分离
-
写入:主 StreamNode 负责
-
读取:任意备用 StreamNode 可读,任意Segment可读
主要优势
-
快速故障恢复:Proxy 自动转发流量至备用节点,恢复速度更快
-
性能提升:多内存副本带来更高 QPS
-
平滑升级:滚动升级时降低服务抖动,服务更稳定
Q3: Global Database 如何实现跨区域高可用?
CDC 同步机制
-
通过 CDC 同步 DDL / DML / Bulk Import 操作
-
同步延迟通常 < 10 秒
-
实现跨 Region / 跨云容灾,RPO 极低
数据写入策略
-
数据写入同一 Region 多个 AZ
-
延迟为跨 AZ 级别
-
极端切换下数据丢失 < 10 秒
-
2026 计划:推出跨 Region Woodpecker,实现 0 RPO
主备切换
-
手动切换:通过 OpenAPI 或 WebConsole
-
自动切换:Zilliz 探活服务检测,1–3 分钟完成
访问模式
模式 | 特点 | 适用场景 |
|---|---|---|
主备容灾 | 主写主读,备仅切换时启用 | 标准容灾 |
多活模式 | 主写多读,就近读取 | 全球读多写少 |
多主模式(2026 年上线) | 主备均可写,需用户保证数据不冲突 | 单元化部署 |
如需了解最新功能特性或获取技术支持,请联系 Zilliz Cloud 技术支持。