Перенос данных в Azure и обратно

Существует несколько вариантов для передачи данных в Azure и обратно, выбор которых зависит от конкретных потребностей.

Физическая передача

Физическое оборудование можно использовать для передачи данных в Azure в следующих случаях:

  • ваша сеть медленная или ненадежная;
  • Получение больше пропускной способности сети является запретительным для затрат.
  • Политики безопасности или организации не разрешают исходящие подключения при работе с конфиденциальными данными.

Если основная проблема заключается в том, сколько времени требуется для передачи данных, может потребоваться выполнить тест, чтобы проверить, медленнее ли передачи сети, чем физический транспорт.

Существует два основных способа физической передачи данных в Azure.

Служба "Импорт и экспорт Azure"

Служба импорта и экспорта Azure позволяет безопасно передавать большие объемы данных в Хранилище BLOB-объектов Azure или Файлы Azure путем доставки внутренних жестких дисков SATA (HDD) или SDD в центр обработки данных Azure. Эту службу можно также использовать для передачи данных из служба хранилища Azure на жесткие диски и доставки дисков для загрузки локальной среды.

Azure Data Box

Azure Data Box — это устройство, предоставляемое корпорацией Майкрософт, которое работает так же, как служба импорта и экспорта. С помощью Data Box корпорация Майкрософт предоставляет собственный, безопасный и защищенный устройство передачи и обрабатывает сквозную логистику, которую можно отслеживать через портал. Одним из преимуществ службы Data Box является простота использования. Нет необходимости приобретать несколько жестких дисков, выполнять их подготовку и передавать файлы на каждый из них. Data Box поддерживается многими ведущими партнерами Azure, чтобы упростить использование автономного транспорта в облако из своих продуктов.

Средства командной строки и API

Используйте следующие параметры, если требуется выполнить скрипт и программную передачу данных:

  • Azure CLI — это кроссплатформенное средство, которое позволяет управлять службами Azure и отправлять данные в хранилище.

  • AzCopy. Используйте AzCopy из командной строки Windows или Linux , чтобы легко копировать данные в хранилище BLOB-объектов, хранилище файлов Azure и хранилище таблиц Azure с оптимальной производительностью. AzCopy поддерживает параллелизм и возможность возобновить операции копирования в случае сбоя. AzCopy можно также использовать для копирования данных из AWS в Azure. Основной платформой для программного доступа AzCopy выступает библиотека перемещения данных для службы хранилища Microsoft Azure. Он предоставляется как библиотека .NET Core.

  • С помощью PowerShell командлет Start-AzureStorageBlobCopy PowerShell является вариантом для администраторов Windows, которые используются для PowerShell.

  • AdlCopy позволяет копировать данные из хранилища BLOB-объектов в Azure Data Lake Storage. Его также можно использовать для копирования данных между двумя учетными записями Data Lake Storage. Однако его нельзя использовать для копирования данных из Data Lake Storage в хранилище BLOB-объектов.

  • Distcp используется для копирования данных в хранилище кластера HDInsight (WASB) и из нее в учетную запись Data Lake Storage.

  • Sqoop — это проект Apache и часть экосистемы Hadoop. Он предварительно установлен на всех кластерах HDInsight. Благодаря ему можно выполнять передачу данных между кластером HDInsight и реляционными базами данных (например, SQL, Oracle, MySQL и т. д.). Sqoop — это коллекция связанных средств, включая средства импорта и экспорта. Sqoop работает с кластерами HDInsight с помощью хранилища BLOB-объектов или подключенного хранилища Data Lake Storage.

  • PolyBase — это технология, которая обращается к данным за пределами базы данных с помощью языка T-SQL. В SQL Server 2016 он позволяет выполнять запросы к внешним данным в Hadoop или импортировать или экспортировать данные из хранилища BLOB-объектов. В Azure Synapse Analytics можно импортировать или экспортировать данные из хранилища BLOB-объектов и Data Lake Storage. В настоящее время PolyBase — это самый быстрый метод импорта данных в Azure Synapse Analytics.

  • Используйте командную строку Hadoop, если у вас есть данные, находящиеся на головном узле кластера HDInsight. С помощью hadoop -copyFromLocal команды можно скопировать эти данные в подключенное хранилище кластера, например хранилище BLOB-объектов или Data Lake Storage. Чтобы использовать команду Hadoop, необходимо сначала подключиться к головному узлу. После подключения вы можете отправить файл в хранилище.

Графический интерфейс

Рассмотрите следующие параметры, если вы передаете только несколько файлов или объектов данных и не требуется автоматизировать процесс.

  • служба хранилища Azure Explorer — это кроссплатформенное средство, которое позволяет управлять содержимым учетных записей служба хранилища Azure. С его помощью можно передавать и скачивать большие двоичные объекты, файлы, очереди, таблицы и сущности Azure Cosmos DB, а также управлять ими. Используйте его с хранилищем BLOB-объектов для управления большими двоичными объектами и папками, а также для отправки и скачивания BLOB-объектов между локальной файловой системой и хранилищем BLOB-объектов или между учетными записями хранения.

  • Портал Azure. Хранилище BLOB-объектов и Data Lake Storage предоставляют веб-интерфейс для изучения файлов и отправки новых файлов. Это хороший вариант, если вы не хотите устанавливать средства или команды выдачи, чтобы быстро изучить файлы, или если вы хотите отправить несколько новых.

Синхронизация данных и конвейеры

  • Фабрика данных Azure — это управляемая служба, подходящая для регулярного передачи файлов между многими службами Azure, локальными системами или сочетанием двух. С помощью фабрики данных можно создавать и планировать рабочие процессы, управляемые данными, называемые конвейерами, которые используют данные из разрозненных хранилищ данных. Фабрика данных может обрабатывать и преобразовывать данные с помощью вычислительных служб, таких как Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics и Машинное обучение Azure. Рабочие процессы, управляемые данными, можно создавать для оркестрации и автоматизации перемещения данных и преобразования данных.

  • Конвейеры и действия в фабрике данных и Azure Synapse Analytics можно использовать для создания комплексных рабочих процессов на основе данных для сценариев перемещения и обработки данных. Кроме того, среда выполнения интеграции Фабрика данных Azure используется для предоставления возможностей интеграции данных в разных сетевых средах.

  • Шлюз Azure Data Box передает данные в Azure и из Него, но это виртуальный модуль, а не жесткий диск. Виртуальные машины, находящиеся в локальной сети, записывают данные в шлюз Data Box с помощью протоколов сетевой файловой системы (NFS) и SMB. Затем устройство передает данные в Azure.

Основные критерии выбора

Для сценариев передачи данных выберите систему в соответствии с вашими потребностями, ответив на следующие вопросы.

  • Нужно ли передавать большие объемы данных, где это происходит через подключение к Интернету, займет слишком много времени, ненадежно или слишком дорого? Если да, рассмотрите возможность применения физической передачи данных.

  • Вы предпочитаете выполнять скрипты задач передачи данных, поэтому они можно использовать повторно? В этом случае выберите один из параметров командной строки или Фабрики данных.

  • Нужно ли передавать большое количество данных через сетевое подключение? Если да, выберите параметр, оптимизированный для больших данных.

  • Вам необходимо передавать данные в реляционную базу данных или из нее? Если да, выберите вариант, поддерживающий одну или несколько реляционных баз данных. Для некоторых из этих параметров также требуется кластер Hadoop.

  • Требуется ли вам автоматизированный конвейер данных или оркестрация рабочего процесса? Если да, рассмотрите фабрику данных.

Матрица возможностей

В следующих таблицах перечислены основные различия в возможностях.

Физическая передача

Возможность Служба импорта и экспорта Data Box
Форм-фактор Внутренние жесткие диски SATA или SDD Безопасное, защищенное от несанкционированного доступа одно аппаратное устройство
Корпорация Майкрософт управляет материально-техническим обеспечением доставки No Да
Интегрируется с партнерскими продуктами No Да
Пользовательское устройство No Да

Программы командной строки

Hadoop/HDInsight:

Возможность DistCp Sqoop Интерфейс командной строки Hadoop
Оптимизация для больших объемов данных Да Да Да
Копирование в реляционную базу данных No Да Нет
Копирование из реляционной базы данных No Да Нет
Копирование в хранилище BLOB-объектов Да Да Да
Копирование из хранилища BLOB-объектов Да Да Нет
Копирование в Data Lake Storage Да Да Да
Копирование из Data Lake Storage Да Да Нет

Другие.

Возможность Azure CLI AzCopy PowerShell AdlCopy PolyBase
Совместимые платформы Linux, OS X, Windows Linux, Windows Windows Linux, OS X, Windows SQL Server, Azure Synapse Analytics
Оптимизация для больших объемов данных No Да Нет Да 1 Да 2
Копирование в реляционную базу данных No No No No Да
Копирование из реляционной базы данных No No No No Да
Копирование в хранилище BLOB-объектов Да Да Да No Да
Копирование из хранилища BLOB-объектов Да Да Да Да Да
Копирование в Data Lake Storage No Да Да Да Да
Копирование из Data Lake Storage No No Да Да Да

[1] AdlCopy оптимизировано для передачи больших объемов данных при использовании учетной записи Data Lake Analytics.

[2] Производительность PolyBase можно увеличить, отправляя результаты вычислений в Hadoop и используя масштабируемые группы PolyBase для обеспечения параллельной передачи данных между экземплярами SQL Server и узлами Hadoop.

Графические интерфейсы, синхронизация данных и конвейеры данных

Возможность Обозреватель службы хранилища Azure Портал Azure* Фабрика данных Шлюз Data Box
Оптимизация для больших объемов данных No No Да Да
Копирование в реляционную базу данных No No Да Нет
Копирование из реляционной базы данных No No Да Нет
Копирование в хранилище BLOB-объектов Да No Да Да
Копирование из хранилища BLOB-объектов Да No Да Нет
Копирование в Data Lake Storage No No Да Нет
Копирование из Data Lake Storage No No Да Нет
Отправка в хранилище BLOB-объектов Да Да Да Да
Отправка в Data Lake Storage Да Да Да Да
Оркестрация передачи данных. No No Да Нет
Пользовательские преобразования данных No No Да Нет
Модель ценообразования Бесплатно Бесплатно Оплата за использование Оплата за единицу

* портал Azure в этом случае представляет средства просмотра веб-объектов для хранилища BLOB-объектов и Data Lake Storage.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Автор субъекта:

Следующие шаги