你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Project Flash - 提高 Azure 虚拟机可用性监视

本项目在内部的名称为 Flash,其名称源于我们坚定不移地致力于为客户构建强大、可靠且快速的机制来监视虚拟机 (VM) 健康状况。 我们的主要目标是确保客户能够可靠地访问可操作且精确的遥测数据,及时接收有关变化的警报,并定期大规模监视数据。 我们还非常重视开发集中且连贯的体验,客户可以方便地使用它来满足其特殊的可观测性需求。 我们的使命是确保你可以:

  • 使用有关 VM 可用性中断(例如,VM 重启和重启、应用程序因网络驱动程序更新而冻结以及 30 秒主机 OS 更新)以及精确的故障详细信息(例如,平台与用户启动、重启与冻结、计划内与计划外)的准确且可操作的数据
  • 分析 VM 可用性趋势并发出警报,以便快速调试和每月报告
  • 定期大规模监视数据并生成自定义仪表板,以便随时了解所有资源的最新可用性状态
  • 接收自动根本原因分析 (RCA),其中详细说明受影响的 VM、停机原因和持续时间、后续修复等,所有这些都是为了进行有针对性的调查和事后剖析
  • 接收有关 VM 可用性发生关键变更的即时通知,以快速触发修复操作并防止最终用户受到影响
  • 根据不断变化的工作负载敏感度和故障转移需求,动态定制和自动化平台恢复策略

Flash 解决方案

Flash 计划多年来致力于开发满足客户各种监视需求的解决方案。 为了帮助你确定最适合你的特定要求的 Flash 监视解决方案,请参阅下表:

解决方案 描述
Azure Resource Graph(正式发布) 对于大规模、集中式资源存储库和历史查找的调查,大客户希望使用 Azure Resource Graph (ARG) 定期一次性跨所有工作负载使用资源可用性遥测数据。
事件网格系统主题(公共预览版) 为了触发时间敏感且关键的缓解措施(重新部署、重启 VM 操作)以防止最终用户受到影响,客户(例如 Pearl Abyss、Krafton)希望通过事件网格中的事件处理程序在资源可用性发生重大变化的几秒钟内收到警报。
Azure Monitor(公共预览版) 为了跟踪趋势、聚合平台指标(CPU、磁盘等)并设置基于阈值的精确警报,客户希望通过 Azure Monitor 使用现成的 VM 可用性指标。
资源运行状况(正式发布) 为了对每个资源执行即时、便捷的门户 UI 健康状况检查,客户可以快速查看门户上的 RHC 边栏选项卡。 客户还可以查看该资源 30 天内的健康状况检查历史视图,以便快速轻松地进行故障排除。

整体 VM 可用性监视

关于监视 VM 可用性的整体方法,包括日常维护、实时迁移、服务修复和 VM 降级场景,我们建议同时使用计划事件 (SE) 和 Flash 健康状况事件。

计划事件旨在提供预警,在维护活动之前最多提前 15 分钟发出通知。 通过此潜在提前期,你可以针对即将到来的停机做出明智决策,从而避免停机或为停机做好准备。 在这 15 分钟内,你可以灵活地确认这些事件或延迟操作,具体取决于即将进行的维护的准备情况。

另一方面,Flash 健康状况事件侧重于实时跟踪正在进行的和已完成的可用性中断,包括 VM 降级。 此功能使你能够有效监视和管理停机时间,支持自动缓解、调查和事后剖析。

若要开始可观测性之旅,可以浏览我们向其发送高质量 VM 可用性数据的 Azure 产品套件。 这些产品包括资源运行状况活动日志Azure Resource GraphAzure 监视指标Azure 事件网格系统主题

后续步骤

若要了解有关所提供解决方案的详细信息,请参阅相应的解决方案文章:

有关如何监视 Azure 虚拟机的一般概述,请参阅监视 Azure 虚拟机监视 Azure 虚拟机参考