Надежность в Виртуальные машины

В этой статье содержатся подробные сведения о региональной устойчивости виртуальных машин с зонами доступности и аварийного восстановления между регионами и непрерывностью бизнес-процессов.

Поддержка зоны доступности

Зоны доступности Azure — это по крайней мере три физически отдельные группы центров обработки данных в каждом регионе Azure. Центры обработки данных в каждой зоне оснащены независимой питанием, охлаждения и сетевой инфраструктурой. В случае сбоя локальной зоны зоны зоны создаются таким образом, чтобы при возникновении влияния одной зоны, региональных служб, емкости и высокой доступности поддерживались остальными двумя зонами.

Сбои могут варьироваться от сбоев программного обеспечения и оборудования до таких событий, как землетрясения, наводнения и пожары. Устойчивость к сбоям достигается с избыточностью и логической изоляцией служб Azure. Дополнительные сведения о зонах доступности в Azure см. в разделе "Регионы и зоны доступности".

Службы с поддержкой зон доступности Azure предназначены для обеспечения правильного уровня надежности и гибкости. Их можно настроить двумя способами. Они могут быть избыточными по зонам с автоматической репликацией между зонами или зональными экземплярами, закрепленными в определенной зоне. Эти подходы также можно объединить. Дополнительные сведения об зональной архитектуре, избыточной между зонами, см . в рекомендациях по использованию зональных зон и регионов.

Виртуальные машины поддерживают зоны доступности с тремя зонами доступности для каждого поддерживаемого региона Azure, а также являются зональными и избыточными по зонам. Дополнительные сведения см. в разделе поддержки зон доступности. Клиент отвечает за настройку и перенос виртуальных машин для доступности.

Дополнительные сведения о параметрах готовности зоны доступности см. в следующем разделе:

Необходимые компоненты

Улучшения обслуживания

Так как зоны доступности физически отделены и обеспечивают различные источники питания, сеть и охлаждение, соглашения об уровне обслуживания (соглашения об уровне обслуживания) увеличиваются. Дополнительные сведения см. в статье о соглашении об уровне обслуживания для виртуальных машин.

Создание ресурса с включенными зонами доступности

Начало работы с созданием виртуальной машины с включенной зоной доступности из следующих вариантов развертывания:

Поддержка зональной отработки отказа

Виртуальные машины можно настроить для отработки отказа в другую зону с помощью службы Site Recovery. Дополнительные сведения см. в разделе Site Recovery.

Отказоустойчивость

Виртуальные машины могут выполнять отработку отказа на другой сервер в кластере с перезапуском операционной системы виртуальной машины на новом сервере. Вы должны обратиться к процессу отработки отказа для аварийного восстановления, сбору виртуальных машин в планировании восстановления и выполнении детализации аварийного восстановления, чтобы убедиться, что их решение отказоустойчивости выполнено успешно.

Дополнительные сведения см. в процессах восстановления сайта.

Взаимодействие с зонами вниз

Во время сбоя на уровне зоны следует ожидать краткого снижения производительности, пока служба виртуальной машины самостоятельно не перебалансирует базовую емкость, чтобы адаптироваться к здоровым зонам. Самовосстановление не зависит от восстановления зоны; Ожидается, что управляемое корпорацией Майкрософт состояние самовосстановления компенсирует потерянную зону, используя емкость из других зон.

Вы также должны подготовиться к возможности сбоя всего региона. Если для всего региона произошло нарушение работы службы, локальные избыточные копии данных временно будут недоступны. Если георепликация включена, в другом регионе хранятся три другие копии служба хранилища Azure больших двоичных объектов и таблиц. Когда произошел полный региональный сбой или авария, в которой основной регион не может восстановиться, Azure перенаправляет все записи DNS в геореплицированный регион.

Подготовка и восстановление сбоя зоны

Следующие рекомендации предоставляются для виртуальных машин Azure во время сбоя службы всего региона, в котором развертывается приложение виртуальной машины Azure:

Проектирование низкой задержки

Кросс-регион (дополнительный регион), кросс-подписка (предварительная версия) и межзональный (предварительная версия) доступны для рассмотрения при разработке решения виртуальной машины с низкой задержкой. Дополнительные сведения об этих параметрах см. в поддерживаемых методах восстановления.

Внимание

Отказ от развертывания с поддержкой зон позволяет защититься от изоляции базовых сбоев. Использование номеров SKU, которые не поддерживают зоны доступности или отказ от конфигурации зоны доступности, принудительно зависят от ресурсов, которые не подчиняются размещению и разделению зон (включая базовые зависимости этих ресурсов). Эти ресурсы не должны быть ожидаемыми, чтобы выжить в сценариях уменьшения зоны. Решения, использующие такие ресурсы, должны определять стратегию аварийного восстановления и настраивать восстановление решения в другом регионе.

Методы безопасного развертывания

При выборе изоляции зон доступности следует использовать безопасные методы развертывания для кода приложения и обновлений приложений. Помимо настройки Azure Site Recovery и реализации любого из следующих методов безопасного развертывания для виртуальных машин:

Так как корпорация Майкрософт периодически выполняет запланированные обновления обслуживания, могут возникать редкие случаи, когда эти обновления требуют перезагрузки виртуальной машины для применения необходимых обновлений к базовой инфраструктуре. Дополнительные сведения см . в рекомендациях по доступности во время запланированного обслуживания.

Перед обновлением следующего набора узлов в другой зоне необходимо выполнить следующие задачи:

Поддержка перехода на зоны доступности

Сведения о переносе виртуальной машины в поддержку зоны доступности см. в статье "Миграция Виртуальные машины и Масштабируемые наборы виртуальных машин в поддержку зоны доступности".

Аварийное восстановление между регионами и непрерывность бизнес-процессов

Аварийное восстановление (АВАРИЙНОе восстановление) заключается в восстановлении из событий высокой нагрузки, таких как стихийные бедствия или неудачные развертывания, которые приводят к простою и потере данных. Независимо от причины, лучшее средство для аварийного восстановления является хорошо определенным и проверенным планом аварийного восстановления и проектом приложения, который активно поддерживает аварийное восстановление. Прежде чем начать думать о создании плана аварийного восстановления, ознакомьтесь с рекомендациями по разработке стратегии аварийного восстановления.

Когда дело доходит до аварийного восстановления, корпорация Майкрософт использует модель общей ответственности. В модели общей ответственности корпорация Майкрософт гарантирует, что доступны базовые службы инфраструктуры и платформы. В то же время многие службы Azure не автоматически реплицируют данные или не реплицируются из неудающегося региона для перекрестной репликации в другой включенный регион. Для этих служб вы несете ответственность за настройку плана аварийного восстановления, который работает для рабочей нагрузки. Большинство служб, работающих на платформе Azure как услуга (PaaS), предоставляют функции и рекомендации для поддержки аварийного восстановления, и вы можете использовать специальные функции службы для поддержки быстрого восстановления для разработки плана аварийного восстановления .

Восстановление между регионами можно использовать для восстановления виртуальных машин Azure с помощью парных регионов. При восстановлении между регионами можно восстановить все виртуальные машины Azure для выбранной точки восстановления, если резервное копирование выполняется в дополнительном регионе. Дополнительные сведения о восстановлении между регионами см. в записи строки таблицы между регионами в наших параметрах восстановления.

Аварийное восстановление в географическом регионе с несколькими регионами

В случае сбоя службы на уровне региона корпорация Майкрософт старательно работает над восстановлением службы виртуальной машины. Однако для обеспечения высокого уровня доступности необходимо использовать другие стратегии резервного копирования для конкретного приложения. Дополнительные сведения см. в разделе о стратегиях аварийного восстановления данных.

Обнаружение сбоев, уведомление и управление

Оборудование или физическая инфраструктура для виртуальной машины может неожиданно завершиться ошибкой. Непредвиденные сбои могут включать сбои локальной сети, сбои локального диска или другие сбои на уровне стойки. При выявлении таких сбоев платформа Azure автоматически переносит виртуальную машину на работоспособный физический компьютер в том же центре обработки данных. Во время восстановления работоспособности виртуальной машины возникает простой (перезагрузка), а в некоторых случаях отключается временный диск. Подключенные диски ОС и диски данных всегда сохраняются.

Дополнительные сведения о сбоях службы виртуальных машин см . в руководстве по аварийному восстановлению.

Настройка аварийного восстановления и обнаружения сбоев

При настройке аварийного восстановления для виртуальных машин понять, что предоставляет Azure Site Recovery. Включите аварийное восстановление для виртуальных машин с помощью следующих методов:

Аварийное восстановление в географическом регионе с одним регионом

При установке аварийного восстановления виртуальные машины Azure непрерывно реплицируются в другой целевой регион. В случае сбоя вы сможете выполнить для таких виртуальных машин отработку отказа в дополнительный регион и получать доступ к ним в этом регионе.

При репликации виртуальных машин Azure с помощью Site Recovery все диски виртуальных машин непрерывно и асинхронно реплицируются в целевой регион. Точки восстановления создаются каждые несколько минут, которые предоставляют целевой объект точки восстановления (RPO) в порядке минут. Можно выполнять аварийное восстановление столько раз, сколько требуется. Это не повлияет на рабочее приложение или текущую репликацию. См. дополнительные сведения об отработке аварийного восстановления в Azure.

Дополнительные сведения см. в статье об архитектурных компонентах виртуальных машин Azure и связывании регионов.

Устойчивость емкости и упреждающего аварийного восстановления

Корпорация Майкрософт и ее клиенты работают в рамках модели общей ответственности. Общая ответственность означает, что для аварийного восстановления с поддержкой клиентов (службы, отвечающие за клиентов), необходимо обратиться к аварийному аварийному восстановления для любой службы, которую они развертывают и контролируют. Чтобы обеспечить упреждающее восстановление, всегда следует предварительно развертывать вторичные файлы, так как не гарантируется возможность во время воздействия для тех, кто не был предварительно расположен.

Для развертывания виртуальных машин можно использовать гибкий режим оркестрации в Масштабируемые наборы виртуальных машин. Все размеры виртуальных машин можно использовать с гибким режимом оркестрации. Режим гибкой оркестрации также обеспечивает гарантии высокой доступности (до 1000 виртуальных машин), распространяя виртуальные машины по доменам сбоя в пределах региона или в пределах зоны доступности.

Следующие шаги