监控检测尽早了解您的工作负载是否

处于健康状态至关重要，这样您就可以快速宣布灾难并从事件中恢复。这种响应时间加上适当的信息对于实现积极的恢复目标至关重要。将事件检测、通知、升级、发现和声明纳入您的计划和目标以提供切合实际、可实现的目标至关重要。服务状态通知 Databricks状态页面概述了控制平面的所有核心 Databricks 服务。您可以通过查看状态页面轻松查看特定服务的状态。您还可以选择订阅各个服务组件的状态更新，只要您订阅的状态发生变化，它就会发送警报。 Databricks 状态页面对于有关数据平面的状态检查，应使用进行监控。

AWS 和 Azure 提供 API 端点

工具可以使用这些端点来摄取状态检查并发出警报。基础设施监控和警报使用工具从基础设施收集和分析数据可以让团队跟踪一段时间内的绩效。这主动地使团队能够最大限度地减少停机时间和整体服务降级。此外，随着时间的推移进行监控会为峰值性能建立基准，作为优化和警报的参考。在 DR 环境 whatsapp 手机号码列表 中，组织可能无法等待来自其服务提供商的警报。即使 RTO RPO 要求足够宽松以等待服务提供商的警报，提前通知供应商的支持团队性能下降将打开更早的沟通渠道。 DataDog和Dynatrace都是流行的监控集群提供集成和代理。作指标仪表板健康检查对于最严格的 RTO 要求，您可以务和工作负载在数据平面中直接与之接口的其他服务（例如来自云提供商的对象存储和 VM 服务）的运行状况检查来实施自动故障转移。

设计代表用户体验并基于关键绩效指标的健康检查

浅层心跳检查可以评估系统是否在运行，即集群是否在运行。虽然深度健康检查（例如来自各个节点的 CPU 的系统指标、磁盘使用情况以及跨每个活动阶段或缓存分区的 Spark 指标）超越浅层心跳检查来确定性能是否显着下降。根据工作负载的功能和基线性能，使用基于多个信号的深度健康检查。如果 GI列表 使用运行状况检查完全自动化故障转移决策，请谨慎行事。如果出现误报或告警，但业务可以吸收影响，则无需故障转移。错误的故障转移会带来可用性风险和数据损坏风险，并且在时间上是一项代价高昂的操作。建议有一个人在环路中，例如随叫随到的事件经理，以在触发警报时做出决定。不必要的故障转移可能是灾难性的，额外的审查有助于确定是否需要进行故障转移。