Копирование данных из Google BigQuery с помощью Фабрики данных Azure или Synapse Analytics

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

В этой статье описано, как с помощью действия копирования в Фабрике данных Azure и конвейерах Synapse Analytics копируются данные из Google BigQuery. Это продолжение статьи с обзором действия копирования, в которой представлены общие сведения о действии копирования.

Внимание

Новый соединитель Google BigQuery обеспечивает улучшенную поддержку Google BigQuery. Если вы используете устаревший соединитель Google BigQuery в решении, обновите соединитель Google BigQuery до 31 октября 2024 года. Дополнительные сведения о различиях между устаревшей и последней версией см. в этом разделе .

Поддерживаемые возможности

Этот соединитель Google BigQuery поддерживается для выполнения следующих возможностей:

Поддерживаемые возможности IR
Действие копирования (источник/-) (1) (2)
Действие поиска (1) (2)

① Среда выполнения интеграции Azure ② Локальная среда выполнения интеграции

Список хранилищ данных, которые поддерживаются в качестве источников и приемников для действия копирования, приведен в таблице Поддерживаемые хранилища данных и форматы.

В службе предоставляется встроенный драйвер, который обеспечивает подключение. Поэтому не нужно вручную устанавливать драйвер для использования этого соединителя.

Примечание.

Этот соединитель Google BigQuery создан на основе API-интерфейсов BigQuery. Учтите, что в BigQuery ограничено максимальное число входящих запросов и применяются соответствующие квоты на каждый проект. Дополнительные сведения см. в разделе о квотах и ограничениях на запросы API. Не активируйте слишком много одновременных запросов к учетной записи.

Начало работы

Чтобы выполнить действие копирования с конвейером, можно воспользоваться одним из приведенных ниже средств или пакетов SDK:

Создание связанной службы для Google BigQuery с помощью пользовательского интерфейса

Выполните приведенные ниже действия, чтобы создать связанную службу для Google BigQuery с помощью пользовательского интерфейса портала Azure.

  1. Перейдите на вкладку "Управление" в рабочей области Фабрики данных Azure или Synapse и выберите "Связанные службы", после чего нажмите "Создать":

  2. Найдите Google BigQuery и выберите соединитель.

    Снимок экрана: соединитель Google BigQuery.

  3. Настройте сведения о службе, проверьте подключение и создайте связанную службу.

    Снимок экрана: конфигурация связанной службы для Google BigQuery.

Сведения о конфигурации соединителя

Следующие разделы содержат сведения о свойствах, которые используются для определения сущностей, относящихся к соединителю Google BigQuery.

Свойства связанной службы

Для связанной службы Google BigQuery поддерживаются следующие свойства.

Свойство Описание: Обязательное поле
type Свойство type должно иметь значение GoogleBigQueryV2. Да
projectId Идентификатор проекта BigQuery по умолчанию для отправки запросов. Да
authenticationType Механизм проверки подлинности OAuth 2.0, используемый для проверки подлинности.
Допустимые значения: UserAuthentication и ServiceAuthentication. В разделах ниже описываются дополнительные свойства и приведены примеры JSON для поддерживаемых типов проверки подлинности.
Да

Использование проверки подлинности пользователей

Задайте для свойства authenticationType значение UserAuthentication и укажите следующие свойства вместе с универсальными свойствами, описанными в предыдущем разделе:

Свойство Описание: Обязательное поле
clientId Идентификатор приложения, используемого для создания маркера обновления. Да
clientSecret Секрет приложения, используемого для создания маркера обновления. Пометьте это поле как SecureString, чтобы безопасно хранить его, или добавьте ссылку на секрет, хранящийся в Azure Key Vault. Да
refreshtoken Маркер обновления, полученный из Google, используемый для авторизации доступа к BigQuery. Сведения о том, как его получить, см. здесь и здесь. Пометьте это поле как SecureString, чтобы безопасно хранить его, или добавьте ссылку на секрет, хранящийся в Azure Key Vault. Да

Пример:

{
    "name": "GoogleBigQueryLinkedService",
    "properties": {
        "type": "GoogleBigQueryV2",
        "typeProperties": {
            "projectId" : "<project ID>",
            "authenticationType" : "UserAuthentication",
            "clientId": "<client ID>",
            "clientSecret": {
                "type": "SecureString",
                "value":"<client secret>"
            },
            "refreshToken": {
                "type": "SecureString",
                "value": "<refresh token>"
            }
        }
    }
}

Использование проверки подлинности службы

Задайте для свойства authenticationType значение ServiceAuthentication и укажите перечисленные ниже свойства вместе с универсальными свойствами, описанными в предыдущем разделе.

Свойство Описание: Обязательное поле
keyFileContent Файл ключа в формате JSON, который используется для проверки подлинности учетной записи службы. Пометьте это поле как SecureString, чтобы безопасно хранить его, или добавьте ссылку на секрет, хранящийся в Azure Key Vault. Да

Пример:

{
    "name": "GoogleBigQueryLinkedService",
    "properties": {
        "type": "GoogleBigQueryV2",
        "typeProperties": {
            "projectId": "<project ID>",
            "authenticationType": "ServiceAuthentication",
            "keyFileContent": {
                "type": "SecureString",
                "value": "<key file JSON string>"
            }
        }
    }
}

Свойства набора данных

Полный список разделов и свойств, доступных для определения наборов данных, см. в статье о наборах данных. В этом разделе содержится список свойств, поддерживаемых набором данных Google BigQuery.

Чтобы скопировать данные из Google BigQuery, задайте для свойства типа набора данных значение GoogleBigQueryV2Object. Поддерживаются следующие свойства:

Свойство Описание: Обязательное поле
type Свойство типа набора данных должно иметь значение : GoogleBigQueryV2Object Да
набор данных Имя набора данных Google BigQuery. Нет (если свойство query указано в источнике действия)
table Имя таблицы. Нет (если свойство query указано в источнике действия)

Пример

{
    "name": "GoogleBigQueryDataset",
    "properties": {
        "type": "GoogleBigQueryV2Object",
        "linkedServiceName": {
            "referenceName": "<Google BigQuery linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [],
        "typeProperties": {
            "dataset": "<dataset name>",
            "table": "<table name>"
        }
    }
}

Свойства действия копирования

Полный список разделов и свойств, используемых для определения действий, см. в статье Конвейеры и действия в фабрике данных Azure. В этом разделе содержится список свойств, поддерживаемых типом источника Google BigQuery.

GoogleBigQuerySource в качестве типа источника

Чтобы скопировать данные из Google BigQuery, задайте тип источника в действии копирования в GoogleBigQueryV2Source. В разделе source действия копирования поддерживаются следующие свойства:

Свойство Описание: Обязательное поле
type Свойство type источника действия копирования должно иметь значение GoogleBigQueryV2Source. Да
query Используйте пользовательский SQL-запрос для чтения данных. Например, "SELECT * FROM MyTable". Дополнительные сведения см. в синтаксисе запросов. Нет (если заданы набор данных и таблица в наборе данных)

Пример:

"activities":[
    {
        "name": "CopyFromGoogleBigQuery",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Google BigQuery input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "GoogleBigQueryV2Source",
                "query": "SELECT * FROM MyTable"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Свойства действия поиска

Подробные сведения об этих свойствах см. в разделе Действие поиска.

Обновление соединителя Google BigQuery

Чтобы обновить соединитель Google BigQuery, создайте новую связанную службу Google BigQuery и настройте ее, ссылаясь на свойства связанной службы.

Различия между Google BigQuery и Google BigQuery (прежние версии)

Соединитель Google BigQuery предлагает новые функциональные возможности и совместим с большинством функций соединителя Google BigQuery (устаревшая версия). В таблице ниже показаны различия между Google BigQuery и Google BigQuery (устаревшая версия).

Google BigQuery Google BigQuery (наследие)
Проверка подлинности службы поддерживается средой выполнения интеграции Azure и локальной средой выполнения интеграции.
Свойства trustedCertPath, useSystemTrustStore, email и keyFilePath не поддерживаются, так как они доступны только в локальной среде выполнения интеграции.
Проверка подлинности службы поддерживается только локальной средой выполнения интеграции.
Поддержка свойств trustedCertPath, useSystemTrustStore, email и keyFilePath.
Следующие сопоставления используются из типов данных Google BigQuery к промежуточным типам данных, используемым службой внутри службы.

Числовой —> десятичный
Метка времени —> DateTimeOffset
Datetime —> DatetimeOffset
Следующие сопоставления используются из типов данных Google BigQuery к промежуточным типам данных, используемым службой внутри службы.

Числовой —> Строка
Метка времени —> DateTime
Datetime —> DateTime
requestGoogleDriveScope не поддерживается. Вам потребуется дополнительно применить разрешение в службе Google BigQuery, указав области API Google Drive и данные диска запросов. Запрос на поддержкуGoogleDriveScope.
дополнительныеprojects не поддерживаются. В качестве альтернативы запросите общедоступный набор данных с помощью консоли Google Cloud. Поддержка дополнительных проектов.

Список хранилищ данных, поддерживаемых в рамках функции копирования в качестве источников и приемников, см. в разделе Поддерживаемые хранилища данных.