Копирование данных с помощью действия копирования

В конвейере данных можно использовать действие Copy для копирования данных между хранилищами данных, расположенными в облаке.

После копирования данных можно использовать другие действия для дальнейшего преобразования и анализа. С помощью действия копирования можно также публиковать результаты преобразования и анализа для бизнес-аналитики и использования приложения.

Чтобы скопировать данные из источника в место назначения, служба, которая запускает действие Copy выполняет следующие действия:

  1. Считывает данные из источника данных.
  2. Выполняет сериализацию или десериализацию, сжатие или распаковку, сопоставление столбцов и т. д. Он выполняет эти операции на основе конфигурации.
  3. Записывает данные в целевое хранилище данных.

Необходимые компоненты

Чтобы приступить к работе, необходимо выполнить следующие предварительные требования:

  • Учетная запись клиента Microsoft Fabric с активной подпиской. Создайте учетную запись бесплатно .

  • Убедитесь, что у вас есть рабочая область с поддержкой Microsoft Fabric.

Добавление действия копирования с помощью помощника по копированию

Выполните следующие действия, чтобы настроить действие копирования с помощью помощника по копированию.

Начало работы с помощником по копированию

  1. Откройте существующий конвейер данных или создайте новый конвейер данных.

  2. Выберите " Копировать данные на холсте", чтобы открыть средство помощника по копированию, чтобы приступить к работе. Или выберите "Использовать помощник по копированию" в раскрывающемся списке "Копирование данных " на вкладке "Действия " на ленте.

    Снимок экрана: параметры открытия помощника по копированию.

Настройка источника

  1. Выберите тип источника данных из категории. Вы будете использовать Хранилище BLOB-объектов Azure в качестве примера. Выберите Хранилище BLOB-объектов Azure и нажмите кнопку "Далее".

    Снимок экрана: выбор источника данных.

  2. Создайте подключение к источнику данных, выбрав "Создать новое подключение".

    Снимок экрана: место для выбора нового подключения.

    После нажатия кнопки "Создать новое подключение" введите необходимые сведения о подключении и нажмите кнопку "Далее". Сведения о создании подключения для каждого типа источника данных см. в каждой статье соединителя.

    Если у вас есть подключения, можно выбрать существующее подключение и выбрать подключение в раскрывающемся списке.

    Снимок экрана: существующее подключение.

  3. Выберите файл или папку, скопированные на этом шаге конфигурации источника, и нажмите кнопку "Далее".

    Снимок экрана: место для выбора копируемых данных.

Настройка назначения

  1. Выберите тип источника данных из категории. Вы будете использовать Хранилище BLOB-объектов Azure в качестве примера. Вы можете создать новое подключение, которое ссылается на новую учетную запись Хранилище BLOB-объектов Azure, выполнив действия, описанные в предыдущем разделе, или используйте существующее подключение из раскрывающегося списка подключений. Возможности тестового подключения и редактирования доступны для каждого выбранного подключения.

    Снимок экрана: выбор Хранилище BLOB-объектов Azure.

  2. Настройте и сопоставите исходные данные с назначением. Затем нажмите кнопку "Далее", чтобы завершить конфигурации назначения.

    Снимок экрана: карта с целевым экраном.

    Снимок экрана: подключение к назначению данных.

    Примечание.

    В одном действие Copy можно использовать только один локальный шлюз данных. Если источник и приемник являются локальными источниками данных, они должны использовать один и тот же шлюз. Чтобы переместить данные между локальными источниками данных с разными шлюзами, необходимо скопировать первый шлюз в промежуточный источник облака в одном действие Copy. Затем можно использовать еще один действие Copy для копирования из промежуточного источника облака с помощью второго шлюза.

Просмотр и создание действия копирования

  1. Просмотрите параметры действия копирования на предыдущих шагах и нажмите кнопку "ОК ", чтобы завершить работу. Вы также можете вернуться к предыдущим шагам, чтобы изменить параметры при необходимости в средстве.

    Снимок экрана: экран проверки и создания.

После завершения действие копирования будет добавлено на холст конвейера данных. Все параметры, включая дополнительные параметры для этого действия копирования, доступны на вкладках при выборе.

Снимок экрана: действие копирования на холсте конвейера данных.

Теперь можно сохранить конвейер данных с помощью этого действия копирования или продолжить разработку конвейера данных.

Добавление действия копирования напрямую

Выполните следующие действия, чтобы напрямую добавить действие копирования.

Добавление действия копирования

  1. Откройте существующий конвейер данных или создайте новый конвейер данных.

  2. Добавьте действие копирования, выбрав "Добавить действие> конвейера действие Copy или выбрав "Копировать данные>" на холсте на вкладке "Действия".

    Снимок экрана: два способа добавления действия копирования.

Настройка общих параметров на вкладке "Общие"

Сведения о настройке общих параметров см. в разделе "Общие".

Настройка источника на вкладке "Источник"

  1. Выберите +Создать рядом с подключением , чтобы создать подключение к источнику данных.

    Снимок экрана, на котором показано, где выбрать

    1. Выберите тип источника данных в всплывающем окне. Вы будете использовать База данных SQL Azure в качестве примера. Выберите База данных SQL Azure и нажмите кнопку Продолжить.

      Снимок экрана: выбор источника данных.

    2. Он переходит на страницу создания подключения. Введите необходимые сведения о подключении на панели и нажмите кнопку "Создать". Сведения о создании подключения для каждого типа источника данных см. в каждой статье соединителя.

      Снимок экрана: страница создания подключения.

    3. После успешного создания подключения вы вернеесь на страницу конвейера данных. Затем выберите "Обновить" , чтобы получить подключение, созданное из раскрывающегося списка. Вы также можете выбрать существующее База данных SQL Azure подключение непосредственно в раскрывающемся списке, если вы уже создали его. Возможности тестового подключения и редактирования доступны для каждого выбранного подключения. Затем выберите База данных SQL Azure в типе подключения.

      Снимок экрана: место обновления подключения.

  2. Укажите таблицу для копирования. Выберите предварительный просмотр данных , чтобы просмотреть исходную таблицу. Вы также можете использовать хранимую процедуру запроса и хранимой процедуры для чтения данных из источника.

    Снимок экрана: параметры исходной таблицы.

  3. Разверните " Дополнительно" для более сложных параметров.

    Снимок экрана: дополнительные параметры.

Настройка назначения на вкладке назначения

  1. Выберите тип назначения. Это может быть внутреннее хранилище данных первого класса из рабочей области, например Lakehouse или внешние хранилища данных. Вы будете использовать Lakehouse в качестве примера.

    Снимок экрана: место выбора типа назначения.

  2. Выберите использовать Lakehouse в типе хранилища данных рабочей области. Нажмите кнопку +Создать, а затем перейдите на страницу создания Lakehouse. Укажите имя Lakehouse и нажмите кнопку "Создать".

    Снимок экрана: создание Lakehouse.

  3. После успешного создания подключения вы вернеесь на страницу конвейера данных. Затем выберите "Обновить" , чтобы получить подключение, созданное из раскрывающегося списка. Вы также можете выбрать существующее подключение Lakehouse непосредственно в раскрывающемся списке, если вы уже создали его раньше.

    Снимок экрана: выбор подключения.

  4. Укажите таблицу или настройте путь к файлу, чтобы определить файл или папку в качестве назначения. Здесь выберите таблицы и укажите таблицу для записи данных.

    Снимок экрана: расположение параметров таблицы.

  5. Разверните " Дополнительно" для более сложных параметров.

    Снимок экрана: дополнительные параметры.

Теперь можно сохранить конвейер данных с помощью этого действия копирования или продолжить разработку конвейера данных.

Настройка сопоставлений на вкладке сопоставления

Если соединитель, который вы применяете, поддерживает сопоставление, перейдите на вкладку "Сопоставление ", чтобы настроить сопоставление.

  1. Выберите "Импорт схем" , чтобы импортировать схему данных.

    Снимок экрана: параметры сопоставления 1.

  2. Отображается автоматическое сопоставление. Укажите исходный столбец и столбец назначения. Если вы создаете новую таблицу в назначении, вы можете настроить имя столбца назначения здесь. Если вы хотите записать данные в существующую целевую таблицу, нельзя изменить существующее имя столбца назначения . Вы также можете просмотреть тип исходных и целевых столбцов.

    Снимок экрана: параметры сопоставления 2.

Кроме того, можно выбрать +Создать сопоставление, чтобы добавить новое сопоставление, удалить все параметры сопоставления и сбросить все столбцы источника сопоставления.

Настройка других параметров на вкладке "Параметры"

Вкладка "Параметры" содержит параметры производительности, промежуточного хранения и т. д.

Снимок экрана: вкладка

Описание каждого параметра см. в следующей таблице.

Параметр Description Свойство скрипта JSON
Интеллектуальная оптимизация пропускной способности Укажите для оптимизации пропускной способности. Вы можете выбрать один из вариантов:
Авто
Стандартный
Сбалансированный
Максимальное

При выборе авто оптимальный параметр динамически применяется на основе пары назначения источника и шаблона данных. Вы также можете настроить пропускную способность, а настраиваемое значение может быть 2–256, а более высокое значение подразумевает больше прибыли.
dataIntegrationUnits
Степень параллелизма копирования Укажите степень параллелизма, которую будет использовать загрузка данных. parallelCopies
Отказоустойчивость При выборе этого параметра можно игнорировать некоторые ошибки, возникшие в середине процесса копирования. Например, несовместимые строки между исходным и целевым хранилищем, удаление файла во время перемещения данных и т. д. • enableSkipIncompatibleRow
• skipErrorFile:
   fileMissing
   fileForbidden
   invalidFileName
Включение ведения журналов При выборе этого параметра можно записывать скопированные файлы, пропускать файлы и строки. /
Включение промежуточного хранения Укажите, следует ли копировать данные через промежуточное хранилище промежуточного хранения. Включите промежуточное хранение только для полезных сценариев. enableStaging
Тип хранилища данных При включении промежуточного хранения можно выбрать рабочую область и внешнюю в качестве типа хранилища данных. /
Для рабочей области
Рабочая область Укажите для использования встроенного промежуточного хранилища. /
Для внешних
Подключение промежуточной учетной записи Укажите подключение Хранилище BLOB-объектов Azure или Azure Data Lake Storage 2-го поколения, которое относится к экземпляру хранилища, используемому в качестве промежуточного хранилища. Создайте промежуточное подключение, если у вас его нет. подключение (в )externalReferences
Путь к хранилищу Задайте путь, по которому должна располагаться область промежуточного хранения данных. В противном случае служба создаст контейнер для хранения временных данных. Укажите путь, только если используется хранилище с подписанным URL-адресом или требуется, чтобы временные данные хранились в определенном месте. path
Включение сжатия Указывает, следует ли сжимать данные перед их копированием в место назначения. Этот параметр позволяет уменьшить объем передаваемых данных. enableCompression
Preserve Укажите, следует ли сохранять метаданные и списки ACL во время копирования данных. охранная зона

Примечание.

Если вы используете поэтапное копирование с включенным сжатием, проверка подлинности субъекта-службы для промежуточного подключения к BLOB-объектам не поддерживается.

Настройка параметров в действии копирования

Параметры можно использовать для управления поведением конвейера и его действиями. Вы можете использовать добавление динамического содержимого для указания параметров свойств действия копирования. Давайте рассмотрим, как указать Lakehouse, Хранилище данных или базу данных KQL, чтобы узнать, как использовать ее.

  1. В исходном или целевом расположении после выбора типа хранилища данных рабочей области и указания типа хранилища данных KQL Хранилища/данных Lakehouse/в качестве типа хранилища данных рабочей области выберите "Добавить динамическое содержимое" в раскрывающемся списке "Lakehouse" или "Хранилище данных" или "База данных KQL".

  2. В всплывающей области "Добавить динамическое содержимое " на вкладке "Параметры " выберите +.

    Снимок экрана: страница

  3. Укажите имя параметра и при необходимости присвойте ему значение по умолчанию или укажите значение параметра после выбора запуска в конвейере.

    Снимок экрана: создание нового параметра.

    Обратите внимание, что значение параметра должно быть идентификатором объекта Lakehouse/Data Warehouse/KQL Database. Чтобы получить идентификатор объекта Lakehouse/Data Warehouse/KQL Database, откройте свою базу данных Lakehouse/Хранилище данных/KQL в рабочей области, а идентификатор находится после /lakehouses/или /datawarehouses/ /databases/ в URL-адресе.

    • Идентификатор объекта Lakehouse:

      Снимок экрана: идентификатор объекта Lakehouse.

    • Идентификатор объекта хранилища данных:

      Снимок экрана: идентификатор объекта хранилища данных.

    • Идентификатор объекта базы данных KQL:

      Снимок экрана: идентификатор объекта базы данных KQL.

  4. Нажмите кнопку "Сохранить", чтобы вернуться в область "Добавить динамическое содержимое". Затем выберите параметр, чтобы он появился в поле выражения. Затем выберите OK. Вы вернетесь на страницу конвейера и увидите, что выражение параметра указано после идентификатора объекта Data Warehouse объекта Lakehouse ИД//объекта KQL Database.

    Снимок экрана: выбор параметра.