Надежность в пространстве имен Сетка событий Azure и сетки событий

В этой статье содержатся подробные сведения о региональной устойчивости сетки событий и пространства имен сетки событий с зонами доступности и аварийного восстановления между регионами и непрерывностью бизнес-процессов.

Общие сведения об архитектуре надежности в Azure см. в статье "Надежность Azure".

Поддержка зоны доступности

Зоны доступности Azure — это по крайней мере три физически отдельные группы центров обработки данных в каждом регионе Azure. Центры обработки данных в каждой зоне оснащены независимой питанием, охлаждения и сетевой инфраструктурой. В случае сбоя локальной зоны зоны зоны создаются таким образом, чтобы при возникновении влияния одной зоны, региональных служб, емкости и высокой доступности поддерживались остальными двумя зонами.

Сбои могут варьироваться от сбоев программного обеспечения и оборудования до таких событий, как землетрясения, наводнения и пожары. Устойчивость к сбоям достигается с избыточностью и логической изоляцией служб Azure. Дополнительные сведения о зонах доступности в Azure см. в разделе "Регионы и зоны доступности".

Службы с поддержкой зон доступности Azure предназначены для обеспечения правильного уровня надежности и гибкости. Их можно настроить двумя способами. Они могут быть избыточными по зонам с автоматической репликацией между зонами или зональными экземплярами, закрепленными в определенной зоне. Эти подходы также можно объединить. Дополнительные сведения об зональной архитектуре, избыточной между зонами, см . в рекомендациях по использованию зональных зон и регионов.

Определения ресурсов Сетки событий для разделов, системных тем, доменов и подписок на события и данных о событиях автоматически реплицируются в трех зонах доступности. При возникновении регионального сбоя в одной из зон доступности ресурсы Сетки событий автоматически отработки отказа в другую зону доступности без вмешательства человека. В настоящее время вы не можете контролировать эту функцию (включить или отключить). Когда существующий регион начинает поддерживать зоны доступности, существующие ресурсы сетки событий автоматически отработки отказа, чтобы воспользоваться преимуществами этой функции. Вмешательство пользователя не требуется.

Сетка событий Azure пространства имен также обеспечивает высокий уровень доступности внутри региона с помощью зон доступности.

Необходимые компоненты

Для поддержки зоны доступности ресурсы Сетки событий должны находиться в регионе, поддерживающем зоны доступности. Сведения о том, какие регионы поддерживают зоны доступности, см. в списке поддерживаемых регионов.

Цены

Так как Служба "Сетка событий" автоматически поддерживает зоны доступности в регионах, поддерживающих зоны доступности, нет изменений в цене.

Создание ресурса с включенными зонами доступности

Так как Служба "Сетка событий" автоматически поддерживает зоны доступности в регионах, поддерживающих зоны доступности, конфигурация установки не требуется.

Поддержка перехода на зоны доступности

При перемещении ресурсов Сетки событий в регион, поддерживающий зоны доступности, вы автоматически получаете поддержку зоны доступности. Сведения о перемещении ресурсов в другой регион, поддерживающий зоны доступности, см. в следующих статьях:

Аварийное восстановление между регионами и непрерывность бизнес-процессов

Аварийное восстановление (АВАРИЙНОе восстановление) заключается в восстановлении из событий высокой нагрузки, таких как стихийные бедствия или неудачные развертывания, которые приводят к простою и потере данных. Независимо от причины, лучшее средство для аварийного восстановления является хорошо определенным и проверенным планом аварийного восстановления и проектом приложения, который активно поддерживает аварийное восстановление. Прежде чем начать думать о создании плана аварийного восстановления, ознакомьтесь с рекомендациями по разработке стратегии аварийного восстановления.

Когда дело доходит до аварийного восстановления, корпорация Майкрософт использует модель общей ответственности. В модели общей ответственности корпорация Майкрософт гарантирует, что доступны базовые службы инфраструктуры и платформы. В то же время многие службы Azure не автоматически реплицируют данные или не реплицируются из неудающегося региона для перекрестной репликации в другой включенный регион. Для этих служб вы несете ответственность за настройку плана аварийного восстановления, который работает для рабочей нагрузки. Большинство служб, работающих на платформе Azure как услуга (PaaS), предоставляют функции и рекомендации для поддержки аварийного восстановления, и вы можете использовать специальные функции службы для поддержки быстрого восстановления для разработки плана аварийного восстановления .

Аварийное восстановление обычно включает создание ресурса резервного копирования, чтобы предотвратить прерывания, когда регион становится неработоспособным. Во время этого процесса в рабочей нагрузке потребуется основной и дополнительный регион Сетка событий Azure ресурсов.

Существует несколько способов восстановления после серьезной потери функциональных возможностей приложения. В этом разделе описан контрольный список, который необходимо выполнить, чтобы подготовить клиента к восстановлению после сбоя из-за неработоспособного ресурса или региона.

Сетка событий поддерживает как ручное, так и автоматическое геоизбыточное аварийное восстановление (GeoDR) на стороне сервера. Если вам требуется больший контроль над процессом отработки отказа, можно реализовать логику аварийного восстановления на стороне клиента. Дополнительные сведения об автоматическом геоизбыточном аварийном восстановлении (GeoDR) см. в разделе Аварийное восстановление с георепликацией на стороне сервера в Сетке событий Azure. Дополнительные сведения о реализации аварийного восстановления на стороне клиента см. в Сетка событий Azure реализации отработки отказа на стороне клиента.

В следующей таблице показана поддержка отработки отказа на стороне клиента и геоизбыточного аварийного восстановления в сетке событий.

Ресурс "Сетка событий" Поддержка отработки отказа на стороне клиента Поддержка геоизбытого аварийного восстановления (GeoDR)
Пользовательские разделы Поддерживается Межрегиональная или региональная
Системные темы Не поддерживается Включен автоматически
Домены Поддерживается Межрегиональная или региональная
Пространства имен партнеров Поддерживается Не поддерживается
Пространства имен Поддерживается Не поддерживается

Пространство имен сетки событий

Пространство имен Сетки событий не поддерживает аварийное восстановление между регионами. Однако вы можете достичь высокого уровня доступности между регионами через реализацию отработки отказа на стороне клиента, создав первичные и вторичные пространства имен.

С помощью реализации отработки отказа на стороне клиента вы можете:

  • Реализуйте пользовательский (ручной или автоматизированный) процесс для репликации пространства имен, удостоверений клиентов и других конфигураций** включая сертификаты ЦС, группы клиентов, пространства разделов, привязки разрешений, маршрутизацию между основными и вторичными регионами.

  • Реализуйте службу concierge, которая предоставляет клиентам первичные и вторичные конечные точки, выполняя проверку работоспособности конечных точек. Служба concierge может быть веб-приложением, которое реплицируется и сохраняется доступно с помощью методов перенаправления DNS, например с помощью Диспетчер трафика Azure.

  • Выполните решение аварийного восстановления active-Active, реплицируя метаданные и балансировку нагрузки между пространствами имен. Решение аварийного восстановления активного пассивного восстановления можно добиться путем репликации метаданных, чтобы сохранить дополнительное пространство имен готовым, чтобы, когда основное пространство имен недоступно, трафик можно направить в дополнительное пространство имен.

Настройка аварийного восстановления

Для парных регионов сетка событий предоставляет возможность отработки отказа трафика публикации в парном регионе для пользовательских тем, системных тем и доменов. Сетка событий автоматически синхронизирует определения ресурсов, системные разделы, домены и подписки на события в парный регион. Однако данные событий не реплицируются в парный регион. В обычном состоянии события хранятся в выбранном регионе для этого ресурса. Когда происходит сбой в регионе, и корпорация Майкрософт инициирует отработку отказа, новые события начинают поступать в геопарный регион и отправляются оттуда без вмешательства. События, опубликованные и принятые в исходном регионе, отправляются туда после устранения сбоя.

Вы можете выбрать два варианта отработки отказа, инициированные Корпорацией Майкрософт отработки отказа и инициированные клиентом. Подробные инструкции по настройке обоих этих параметров см. в разделе "Настройка расположения данных".

  • Отработка отказа, инициированная корпорацией Майкрософт, выполняется в редких ситуациях для отработки отказа ресурсов Сетки событий из затронутого региона в соответствующий геопарированный регион. Корпорация Майкрософт оставляет за собой право определить, когда этот параметр будет использоваться. Отработка отказа трафика пользователя с помощью этого механизма не требует согласия этого пользователя.

    Включите эту функцию, обновив конфигурацию для раздела или домена. Выберите перекрестный ( по умолчанию), чтобы включить отработку отказа, инициированную корпорацией Майкрософт.

  • Отработка отказа, инициированная клиентом, определяется пользовательским планом аварийного восстановления для Сетка событий Azure тем и доменов, никакие данные не реплицируются в другой регион корпорацией Майкрософт. Хотя этот вариант отработки отказа требует немного больше усилий, он позволяет ускорить отработку отказа, и вы управляете выбором дополнительных регионов. Если вы хотите реализовать аварийное восстановление на стороне клиента для Сетка событий Azure разделах, см. статью "Создание собственного аварийного восстановления на стороне клиента" для Сетка событий Azure разделов.

    Существует несколько причин, по которым может потребоваться отключить функцию отработки отказа, инициированную корпорацией Майкрософт:

    • Отработка отказа, инициированная корпорацией Майкрософт, выполняется на основе лучших усилий.
    • Некоторые геопары не соответствуют требованиям к месту расположения данных вашей организации.

    Включите эту функцию, обновив конфигурацию для раздела или домена. Выберите Региональный.

    Снимок экрана: страница

Если вы используете непарный регион, независимо от выбранной конфигурации расположения данных, метаданные будут реплицироваться только в пределах региона.

Отработка отказа аварийного восстановления

Аварийное восстановление измеряется двумя метриками, целевой точкой восстановления (RPO) и целевым временем восстановления (RTO).

Автоматическая отработка отказа Сетки событий имеет различные RPOs и ОСРВ для метаданных (темы, домены, подписки на события) и данные (события). Если вам нужна другая спецификация из следующих, вы по-прежнему можете реализовать собственную отработку отказа на стороне клиента с помощью API работоспособности раздела.

Целевая точка восстановления (RPO)

  • RPO для метаданных: 0 минут. Для применимых ресурсов при создании или обновлении или удалении ресурса определение ресурса синхронно реплицируется в геопару. При отработке отказа метаданные никогда не теряются.

  • RPO данных: при отработки отказа новые данные обрабатываются из парного региона. Как только сбой устраняется для затронутого региона, оттуда отправляются необработанные события. Если для восстановления региона требуется больше времени, чем значение времени в реальном времени , заданное для событий, данные могут быть удалены. Чтобы устранить эту потерю данных, рекомендуется настроить назначение недоставленных писем для подписки на события. Если затронутая область потеряна и неустранима, произойдет некоторая потеря данных. В лучшем случае подписчик следит за скоростью публикации и теряется всего несколько секунд данных. Худшим сценарием будет ситуация, когда подписчик не активно обрабатывает события и с максимальным временем жизни в течение 24 часов, потеря данных может составлять до 24 часов.

Целевое время восстановления (RTO)

  • RTO метаданных: принятие решений по отработке отказа основано на таких факторах, как доступная емкость в парном регионе, и может длиться в диапазоне от 60 минут или более. После запуска отработки отказа в течение 5 минут сетка событий начинает принимать вызовы создания и обновления и удаления для разделов и подписок.

  • RTO данных: аналогично приведенной выше информации.

Внимание

  • В случае аварийного восстановления на стороне сервера, если в парном регионе нет дополнительной емкости для передачи дополнительного трафика, сетка событий не может инициировать отработку отказа. Восстановление выполняется на основе лучших усилий.
  • Плата за использование этой функции не взимается.
  • Геоизбыточное аварийное восстановление не поддерживается для пространств имен партнеров и разделов партнеров.

Следующие шаги