Шифрование данных в Машинном обучении Azure

Машинное обучение Azure использует различные службы хранилища данных Azure и вычислительные ресурсы при обучении моделей и выполнении выводов. В этой статье вы узнаете о шифровании данных для каждой службы, неактивных и передаваемых данных.

Для шифрования на рабочем уровне во время обучения рекомендуется использовать Машинное обучение Azure вычислительный кластер. Для шифрования в рабочей среде во время вывода рекомендуется использовать Служба Azure Kubernetes (AKS).

Вычислительный экземпляр Машинное обучение Azure — это среда разработки и тестирования. При использовании рекомендуется хранить файлы, такие как записные книжки и сценарии, в общей папке. Храните данные в хранилище данных.

Шифрование при хранении

Машинное обучение Azure комплексные проекты интегрируются со службами, такими как Хранилище BLOB-объектов Azure, Azure Cosmos DB и База данных SQL Azure. В этой статье описываются методы шифрования для таких служб.

Хранилище BLOB-объектов Azure

Машинное обучение Azure хранит моментальные снимки, выходные данные и журналы в учетной записи Хранилище BLOB-объектов Azure (учетная запись хранения по умолчанию), привязанную к рабочей области Машинное обучение Azure и вашей подписке. Все данные, хранящиеся в Хранилище BLOB-объектов Azure, шифруются неактивных с помощью ключей, управляемых Корпорацией Майкрософт.

Сведения об использовании собственных ключей для данных, хранящихся в Хранилище BLOB-объектов Azure, см. в разделе служба хранилища Azure шифрования с помощью ключей, управляемых клиентом, в Azure Key Vault.

Обучающие данные обычно хранятся в Хранилище BLOB-объектов Azure, чтобы обучающие целевые объекты вычислений могли получить к нему доступ. Машинное обучение Azure не управляет этим хранилищем. Это хранилище подключено к целевым объектам вычислений в виде удаленной файловой системы.

Сменить или отменить ключ можно в любое время. При смене ключа учетная запись хранения начинает использовать новый ключ (последняя версия) для шифрования неактивных данных. При отмене (отключении) ключа учетная запись хранения заботится о неудачных запросах. Для вступления в силу операции смены или отмены обычно требуется час.

Сведения о повторном создании ключей доступа см. в разделе "Повторное создание ключей доступа к учетной записи хранения".

Azure Data Lake Storage

Примечание.

29 февраля 2024 г. Azure Data Lake Storage 1-го поколения будет прекращена. Дополнительные сведения см. в официальном объявлении. Если вы используете Azure Data Lake Storage 1-го поколения, обязательно перейдите на Azure Data Lake Storage 2-го поколения до этой даты. Сведения о том, как выполнить миграцию Azure Data Lake Storage из 1-го поколения в 2-го поколения с помощью портал Azure.

Если у вас еще нет учетной записи Azure Data Lake Storage 1-го поколения, вы не можете создать новые.

Azure Data Lake Storage 2-го поколения построен на основе Хранилище BLOB-объектов Azure и предназначен для аналитики больших данных на предприятиях. Data Lake Storage 2-го поколения используется в качестве хранилища данных для Машинное обучение Azure. Как и Хранилище BLOB-объектов Azure, неактивных данных шифруются с помощью ключей, управляемых Корпорацией Майкрософт.

Сведения об использовании собственных ключей для данных, хранящихся в Azure Data Lake Storage, см. в статье служба хранилища Azure шифрование с помощью ключей, управляемых клиентом, в Azure Key Vault.

Реляционные базы данных Azure

Служба Машинное обучение Azure поддерживает данные из следующих источников данных.

База данных SQL Azure

Прозрачное шифрование данных помогает защитить База данных SQL Azure от угрозы вредоносных автономных действий путем шифрования неактивных данных. По умолчанию прозрачное шифрование данных включается для всех вновь развернутых баз данных SQL, использующих ключи, управляемые корпорацией Майкрософт.

Сведения об использовании управляемых клиентом ключей для прозрачного шифрования данных см. в База данных SQL Azure прозрачном шифровании данных.

База данных Azure для PostgreSQL

По умолчанию База данных Azure для PostgreSQL использует шифрование служба хранилища Azure для шифрования неактивных данных с помощью ключей, управляемых Корпорацией Майкрософт. Это похоже на прозрачное шифрование данных в других базах данных, таких как SQL Server.

Сведения об использовании управляемых клиентом ключей для прозрачного шифрования данных см. в разделе База данных Azure для PostgreSQL шифрование данных с одним сервером с помощью управляемого клиентом ключа.

База данных Azure для MySQL

База данных Azure для MySQL — это служба реляционной базы данных в Microsoft Cloud. Он основан на ядре СУБД MySQL Community Edition. Служба База данных Azure для MySQL использует проверенный модуль шифрования FIPS 140-2 для шифрования неактивных данных служба хранилища Azure.

Сведения о шифровании данных с помощью ключей, управляемых клиентом, см. в статье База данных Azure для MySQL шифрование данных с помощью управляемого клиентом ключа.

Azure Cosmos DB

Машинное обучение Azure хранит метаданные в экземпляре Azure Cosmos DB. Этот экземпляр связан с подпиской Майкрософт, которая Машинное обучение Azure управляет. Все хранимые данные в Azure Cosmos DB шифруются при хранении с помощью ключей под управлением корпорации Майкрософт.

При использовании собственных (управляемых клиентом) ключей для шифрования экземпляра Azure Cosmos DB в подписке создается экземпляр Azure Cosmos DB, управляемый Корпорацией Майкрософт. Этот экземпляр создается в управляемой корпорацией Майкрософт группе ресурсов, которая отличается от группы ресурсов для рабочей области. Дополнительные сведения см. в разделе "Ключи, управляемые клиентом" для Машинное обучение Azure.

Реестр контейнеров Azure

Все образы контейнеров в реестре контейнеров (экземпляр Реестр контейнеров Azure) шифруются неактивных данных. Azure автоматически шифрует образ перед сохранением и расшифровывает его при извлечении Машинным обучением Azure.

Чтобы использовать управляемые клиентом ключи для шифрования реестра контейнеров, необходимо создать и подключить реестр контейнеров во время подготовки рабочей области. Вы можете зашифровать экземпляр по умолчанию, созданный во время подготовки рабочей области.

Внимание

Машинное обучение Azure требуется включить учетную запись администратора в реестре контейнеров. По умолчанию она отключается, когда вы создаете реестр контейнеров. Сведения о включении учетной записи администратора см. далее в этой статье.

После создания реестра контейнеров для рабочей области не удаляйте его. В противном случае будет нарушена функциональность рабочей области машинного обучения Azure.

Примеры создания рабочей области с помощью существующего реестра контейнеров см. в следующих статьях:

Экземпляры контейнеров Azure

Внимание

Развертывания для Экземпляры контейнеров Azure используют пакет SDK для Python Машинное обучение Azure и CLI версии 1.

Вы можете зашифровать развернутый Экземпляры контейнеров Azure ресурс с помощью ключей, управляемых клиентом. Ключи, управляемые клиентом для Экземпляры контейнеров, можно хранить в хранилище ключей для рабочей области.

ОБЛАСТЬ ПРИМЕНЕНИЯ: Пакет SDK для Python версии 1

Чтобы использовать ключ при развертывании модели для Экземпляры контейнеров, создайте новую конфигурацию развертывания с помощью AciWebservice.deploy_configuration(). Укажите ключевые сведения с помощью следующих параметров:

  • cmk_vault_base_url: URL-адрес хранилища ключей, содержащего ключ.
  • cmk_key_name: имя ключа.
  • cmk_key_version: версия ключа.

Дополнительные сведения о создании и использовании конфигурации развертывания см. в следующих статьях:

Дополнительные сведения об использовании управляемого клиентом ключа с Экземпляры контейнеров см. в разделе "Шифрование данных развертывания".

Служба Azure Kubernetes

Вы можете зашифровать развернутый ресурс Служба Azure Kubernetes с помощью ключей, управляемых клиентом, в любое время. Дополнительные сведения см. в статье Использование собственных ключей (BYOK) с помощью Службы Azure Kubernetes (AKS).

Этот процесс позволяет шифровать данные и диск ОС развернутых виртуальных машин в кластере Kubernetes.

Внимание

Этот процесс работает только с AKS версии 1.17 или более поздней. 13 января 2020 г. в Машинное обучение Azure добавлена поддержка AKS 1.17.

Вычислительная среда Машинного обучения

Вычислительный кластер

Диск операционной системы для каждого вычислительного узла, хранящегося в службе хранилища Azure, шифруется с помощью управляемых корпорацией Майкрософт ключей в учетных записях хранения Машинного обучения Azure. Этот целевой объект вычислений является временным, и кластеры, как правило, уменьшаются в масштабе, если в очереди нет заданий. Базовая виртуальная машина отозвана, а диск ОС удаляется.

Шифрование дисков Azure не включен для рабочих областей по умолчанию. Если вы создаете рабочую область с заданным параметром hbi_workspace TRUE, диск ОС шифруется.

Каждая виртуальная машина также имеет локальный временный диск для операций ОС. При необходимости можно использовать диск для размещения данных для обучения. Если вы создаете рабочую область с заданным параметром hbi_workspace TRUE, временный диск шифруется. Эта среда является короткой (только во время задания), а поддержка шифрования ограничена только ключами, управляемыми системой.

Управляемые сетевые конечные точки и пакетные конечные точки используют Машинное обучение Azure вычисления в серверной части, и они следуют одному и тому же механизму шифрования.

Вычислительная операция

Диск ОС для вычислительного экземпляра шифруется с помощью ключей, управляемых Корпорацией Майкрософт, в учетных записях хранения Машинное обучение Azure. Если рабочая область была создана со значением hbi_workspace параметра TRUE, локальный временный диск в вычислительном экземпляре шифруется с помощью ключей, управляемых Microsoft. Шифрование ключей, управляемых клиентом, не поддерживается для ос и временных дисков.

Дополнительные сведения см. в разделе "Ключи, управляемые клиентом" для Машинное обучение Azure.

Azure Data Factory

Конвейер Фабрика данных Azure прием данных для использования с Машинное обучение Azure. Фабрика данных Azure шифрует неактивных данных, включая определения сущностей и все данные, кэшированные во время выполнения. По умолчанию данные шифруются случайным образом созданным корпорацией Майкрософт ключом, уникальным образом назначенным фабрике данных.

Сведения об использовании ключей, управляемых клиентом для шифрования, см. в разделе "Шифрование Фабрика данных Azure с помощью ключей, управляемых клиентом".

Azure Databricks

Azure Databricks можно использовать в Машинное обучение Azure конвейерах. По умолчанию файловая система Databricks (DBFS), которую использует Azure Databricks, шифруется с помощью управляемого корпорацией Майкрософт ключа. Сведения о настройке Azure Databricks для использования управляемых клиентом ключей см. в статье Настройка ключей, управляемых клиентом, в DBFS по умолчанию (корневой файловой системе).

Данные, созданные корпорацией Майкрософт

При использовании таких служб, как Машинное обучение Azure, корпорация Майкрософт может создавать временные предварительно обработанные данные для обучения нескольких моделей. Эти данные хранятся в хранилище данных в рабочей области, поэтому вы можете применить элементы управления доступом и шифрование соответствующим образом.

Вы также можете зашифровать диагностические данные, которые регистрируются из развернутой конечной точки в Application Insights.

Шифрование при передаче

Машинное обучение Azure использует протокол TLS для защиты внутренней связи между различными микрослужбами Машинное обучение Azure. Доступ к службе хранилища Azure также осуществляется по безопасному каналу.

Чтобы защитить внешние вызовы, сделанные в конечную точку оценки, Машинное обучение Azure использует TLS. Дополнительные сведения см. в статье Использование TLS для защиты веб-службы с помощью Машинного обучения Azure.

Сбор и обработка данных

В целях диагностики корпорация Майкрософт может собирать сведения, которые не определяют пользователей. Например, корпорация Майкрософт может собирать имена ресурсов (например, имя набора данных или имя эксперимента машинного обучения) или переменные среды задания. Все эти данные хранятся с помощью ключей, управляемых корпорацией Майкрософт, в хранилище, размещенном в подписках Майкрософт. Хранилище следует стандартной политике конфиденциальности Майкрософт и стандартам обработки данных. Эти данные остаются в том же регионе, что и ваша рабочая область.

Рекомендуется не хранить конфиденциальную информацию (например, секреты ключа учетной записи) в переменных среды. Журналы, шифрование и хранение переменных среды майкрософт. Аналогичным образом, если вы назовете задания, избегайте включения конфиденциальных сведений, таких как имена пользователей или имена секретных проектов. Эти сведения могут отображаться в журналах телеметрии, к которым могут обращаться инженеры службы поддержки Майкрософт.

Вы можете отказаться от сбора диагностических данных, задав hbi_workspace параметр для TRUE подготовки рабочей области. Эта функция поддерживается при использовании пакета SDK для Python Машинное обучение Azure, Azure CLI, REST API или шаблонов Azure Resource Manager.

Хранилище учетных данных в Azure Key Vault

Машинное обучение Azure использует экземпляр Azure Key Vault, связанный с рабочей областью, для хранения учетных данных различных типов:

  • Связанная строка подключения для учетной записи хранения
  • Пароли для Реестр контейнеров Azure экземпляров
  • Строки подключения к хранилищам данных

Пароли и ключи Secure Shell для целевых объектов вычислений, таких как Azure HDInsight и виртуальные машины, хранятся в отдельном хранилище ключей, связанном с подпиской Майкрософт. Машинное обучение Azure не сохраняет пароли или ключи, предоставляемые пользователями. Вместо этого он создает, авторизует и сохраняет собственные ключи SSH для подключения к виртуальным машинам и HDInsight для выполнения экспериментов.

У каждой рабочей области есть связанное управляемое удостоверение, назначаемое системой, которое имеет то же имя, что и рабочая область. Это управляемое удостоверение имеет доступ ко всем ключам, секретам и сертификатам в хранилище ключей.

Следующие шаги