Konfigurieren von Dataflowendpunkten für Azure Data Lake Storage Gen2

Artikel
11/08/2024

Wichtig

Die von Azure Arc unterstützte Vorschauversion von „Azure IoT Einsatz“ befindet sich derzeit in der Vorschauphase. Sie sollten diese Vorschausoftware nicht in Produktionsumgebungen verwenden.

Sie müssen eine neue Installation von „Azure IoT Einsatz“ bereitstellen, wenn ein allgemein verfügbares Release verfügbar wird. Sie werden kein Upgrade für eine Preview-Installation durchführen können.

Die zusätzlichen Nutzungsbestimmungen für Microsoft Azure-Vorschauen enthalten rechtliche Bedingungen. Sie gelten für diejenigen Azure-Features, die sich in der Beta- oder Vorschauversion befinden oder aber anderweitig noch nicht zur allgemeinen Verfügbarkeit freigegeben sind.

Um Daten in Azure IoT Einsatz Preview an Azure Data Lake Storage Gen2 zu senden, können Sie einen Dataflowendpunkt konfigurieren. Mit dieser Konfiguration können Sie den Zielendpunkt, die Authentifizierungsmethode, die Tabelle und andere Einstellungen angeben.

Voraussetzungen

Eine Instanz von Azure IoT Einsatz Vorschau
Ein konfiguriertes Dataflowprofil
Ein Azure Data Lake Storage Gen2-Konto
Ein vorab erstellter Speichercontainer im Speicherkonto

Erstellen eines Azure Data Lake Storage Gen2-Dataflowendpunkts

Um einen Dataflowendpunkt für Azure Data Lake Storage Gen2 zu konfigurieren, empfehlen wir die Verwendung der verwalteten Identität des Azure Arc-fähigen Kubernetes-Clusters. Dieser Ansatz ist sicher und beseitigt die Notwendigkeit der Geheimnisverwaltung. Alternativ können Sie sich mit dem Speicherkonto mithilfe eines Zugriffstokens authentifizieren. Wenn Sie ein Zugriffstoken verwenden, müssen Sie einen Kubernetes-Geheimschlüssel erstellen, der das SAS-Token enthält.

Wählen Sie im IoT Einsatz-Portal die Registerkarte Dataflowendpunkte aus.
Wählen Sie unter Neuen Dataflowendpunkt erstellen die Option Azure Data Lake Store (2. Generation)>Neu aus.

Geben Sie die folgenden Einstellungen für den Endpunkt ein:

Einstellung	BESCHREIBUNG
Name	Der Name des Dataflowendpunkts.
Host	Der Hostname des Azure Data Lake Storage Gen2-Endpunkts im Format `<account>.blob.core.windows.net`. Ersetzen Sie den Kontoplatzhalter durch den Endpunktkontonamen.
Authentifizierungsmethode	Die für die Authentifizierung verwendete Methode. Wählen Sie Systemseitig zugewiesene verwaltete Identität, Benutzerseitig zugewiesene verwaltete Identität oder Zugriffstoken aus.
Client-ID	Die Client-ID einer benutzerseitig zugewiesenen verwalteten Identität. Erforderlich bei Verwendung einer Benutzerseitig zugewiesenen verwalteten Identität.
Mandanten-ID	Die Instanz-ID der benutzerseitig zugewiesenen verwalteten Identität. Erforderlich bei Verwendung einer Benutzerseitig zugewiesenen verwalteten Identität.
Name des geheimen Tokenschlüssels für den Zugriff	Der Name des Kubernetes-Geheimnisses, der das SAS-Token enthält. Erforderlich bei Verwendung des Zugriffstokens.

Wählen Sie Übernehmen aus, um den Endpunkt bereitzustellen.

Erstellen Sie eine Bicep-Datei (.bicep) mit folgendem Inhalt:

param aioInstanceName string = '<AIO_INSTANCE_NAME>'
param customLocationName string = '<CUSTOM_LOCATION_NAME>'
param endpointName string = '<ENDPOINT_NAME>'
param host string = 'https://<ACCOUNT>.blob.core.windows.net'

resource aioInstance 'Microsoft.IoTOperations/instances@2024-09-15-preview' existing = {
  name: aioInstanceName
}
resource customLocation 'Microsoft.ExtendedLocation/customLocations@2021-08-31-preview' existing = {
  name: customLocationName
}
resource adlsGen2Endpoint 'Microsoft.IoTOperations/instances/dataflowEndpoints@2024-09-15-preview' = {
  parent: aioInstance
  name: endpointName
  extendedLocation: {
    name: customLocation.id
    type: 'CustomLocation'
  }
  properties: {
    endpointType: 'DataLakeStorage'
    dataLakeStorageSettings: {
      host: host
      authentication: {
        method: 'SystemAssignedManagedIdentity'
        systemAssignedManagedIdentitySettings: {}
      }
    }
  }
}

Stellen Sie sie dann über die Azure CLI bereit:

az deployment group create --resource-group <RESOURCE_GROUP> --template-file <FILE>.bicep

Erstellen Sie eine Kubernetes-Manifestdatei (.yaml) mit folgendem Inhalt:

apiVersion: connectivity.iotoperations.azure.com/v1beta1
kind: DataflowEndpoint
metadata:
  name: <ENDPOINT_NAME>
  namespace: azure-iot-operations
spec:
  endpointType: DataLakeStorage
  dataLakeStorageSettings:
    host: https://<ACCOUNT>.blob.core.windows.net
    authentication:
      method: SystemAssignedManagedIdentity
      systemAssignedManagedIdentitySettings: {}

Wenden Sie dann die Manifestdatei auf den Kubernetes-Cluster an:

kubectl apply -f <FILE>.yaml

Wenn Sie die Zielgruppe der systemseitig zugewiesenen verwalteten Identität außer Kraft setzen müssen, lesen Sie den Abschnitt Systemseitig zugewiesene verwaltete Identität.

Verwenden der Zugriffstokenauthentifizierung

Führen Sie die Schritte im Abschnitt Zugriffstoken aus, um ein SAS-Token für das Speicherkonto abzurufen und es in einem Kubernetes-Geheimschlüssel zu speichern.

Erstellen Sie dann die DataflowEndpoint-Ressource, und geben Sie die Authentifizierungsmethode „Zugriffstoken“ an. Ersetzen Sie hier <SAS_SECRET_NAME> durch den Namen des Geheimnisses, das das SAS-Token und andere Platzhalterwerte enthält.

Wählen Sie im IoT Einsatz-Portal die Registerkarte Dataflowendpunkte aus.
Wählen Sie unter Neuen Dataflowendpunkt erstellen die Option Azure Data Lake Store (2. Generation)>Neu aus.

Geben Sie die folgenden Einstellungen für den Endpunkt ein:

Einstellung	BESCHREIBUNG
Name	Der Name des Dataflowendpunkts.
Host	Der Hostname des Azure Data Lake Storage Gen2-Endpunkts im Format `<account>.blob.core.windows.net`. Ersetzen Sie den Kontoplatzhalter durch den Endpunktkontonamen.
Authentifizierungsmethode	Die für die Authentifizierung verwendete Methode. Wählen Sie Zugriffstoken aus.
Synchronisierter Geheimnisname	Der Name des Kubernetes-Schlüssels, der mit dem ADLSv2-Endpunkt synchronisiert wird.
Name des geheimen Tokenschlüssels für den Zugriff	Der Name des Kubernetes-Geheimnisses, der das SAS-Token enthält.

Wählen Sie Übernehmen aus, um den Endpunkt bereitzustellen.

Erstellen Sie eine Bicep-Datei (.bicep) mit folgendem Inhalt:

param aioInstanceName string = '<AIO_INSTANCE_NAME>'
param customLocationName string = '<CUSTOM_LOCATION_NAME>'
param endpointName string = '<ENDPOINT_NAME>'
param host string = 'https://<ACCOUNT>.blob.core.windows.net'

resource aioInstance 'Microsoft.IoTOperations/instances@2024-09-15-preview' existing = {
  name: aioInstanceName
}
resource customLocation 'Microsoft.ExtendedLocation/customLocations@2021-08-31-preview' existing = {
  name: customLocationName
}
resource adlsGen2Endpoint 'Microsoft.IoTOperations/instances/dataflowEndpoints@2024-09-15-preview' = {
  parent: aioInstance
  name: endpointName
  extendedLocation: {
    name: customLocation.id
    type: 'CustomLocation'
  }
  properties: {
    endpointType: 'DataLakeStorage'
    dataLakeStorageSettings: {
      host: host
      authentication: {
        method: 'AccessToken'
        accessTokenSettings: {
          secretRef: '<SAS_SECRET_NAME>'
        }
      }
    }
  }
}

Stellen Sie sie dann über die Azure CLI bereit:

az deployment group create --resource-group <RESOURCE_GROUP> --template-file <FILE>.bicep

Erstellen Sie eine Kubernetes-Manifestdatei (.yaml) mit folgendem Inhalt:

apiVersion: connectivity.iotoperations.azure.com/v1beta1
kind: DataflowEndpoint
metadata:
  name: <ENDPOINT_NAME>
  namespace: azure-iot-operations
spec:
  endpointType: DataLakeStorage
  dataLakeStorageSettings:
    host: https://<ACCOUNT>.blob.core.windows.net
    authentication:
      method: AccessToken
      accessTokenSettings:
        secretRef: <SAS_SECRET_NAME>

Wenden Sie dann die Manifestdatei auf den Kubernetes-Cluster an:

kubectl apply -f <FILE>.yaml

Verfügbare Authentifizierungsmethoden

Die folgenden Authentifizierungsmethoden sind für Azure Data Lake Storage Gen2-Endpunkte verfügbar.

Weitere Informationen zum Aktivieren sicherer Einstellungen durch Konfigurieren eines Azure Key Vault und Aktivieren von Workloadidentitäten finden Sie unter Aktivieren sicherer Einstellungen in der Azure IoT Einsatz Vorschau-Bereitstellung.

Systemseitig zugewiesene verwaltete Identität

Die Verwendung der systemseitig zugewiesenen verwalteten Identität ist die empfohlene Authentifizierungsmethode für Azure IoT Einsatz. Azure IoT Einsatz erstellt die verwaltete Identität automatisch und weist sie dem Azure Arc-fähigen Kubernetes-Cluster zu. Dadurch müssen keine Geheimnisse verwaltet werden, und es wird die nahtlose Authentifizierung ermöglicht.

Bevor Sie den Datenflussendpunkt erstellen, weisen Sie der verwalteten Identität eine Rolle zu, die über Schreibberechtigungen für das Speicherkonto verfügt. Sie können beispielsweise die Rolle Mitwirkender an Storage-Blobdaten zuweisen. Weitere Informationen zum Zuweisen von Rollen zu Blobs finden Sie unter Autorisieren des Zugriffs auf Blobs mit Microsoft Entra ID.

Wechseln Sie im Azure-Portal zu Ihrer Azure IoT Einsatz-Instanz, und wählen Sie Übersicht aus.
Kopieren Sie den Namen der Erweiterung, die nach der Arc-Erweiterung für Azure IoT Einsatz aufgeführt ist. Beispiel: azure-iot-operations-xxxx7.
Suchen Sie im Azure-Portal mithilfe des Namens der Erweiterung nach der verwalteten Identität. Suchen Sie z. B. nach azure-iot-operations-xxxx7.
Weisen Sie der verwalteten Identität der Azure IoT Operations Arc-Erweiterung eine Rolle zu, die Berechtigungen zum Schreiben an das Speicherkonto erteilt, z. B. Mitwirkender an Storage-Blobdaten. Weitere Informationen finden Sie unter Autorisieren des Zugriffs auf Blobs mit Microsoft Entra ID.
Erstellen Sie die DataflowEndpoint-Ressource, und geben Sie die Authentifizierungsmethode „verwaltete Identität“ an.

Wählen Sie auf der Seite „Einstellungen“ für den Dataflowendpunkt auf der Einsatz-Benutzeroberfläche die Registerkarte Allgemeine Informationen und dann Authentifizierungsmethode>Systemseitig zugewiesene verwaltete Identität aus.

In den meisten Fällen müssen Sie keine Dienstgruppe angeben. Wenn Sie keine Benutzergruppe angeben, wird eine verwaltete Identität mit der Standardzielgruppe erstellt, die auf Ihr Speicherkonto ausgelegt ist.

dataLakeStorageSettings: {
  authentication: {
    method: 'SystemAssignedManagedIdentity'
    systemAssignedManagedIdentitySettings: {}
  }
}

dataLakeStorageSettings:
  authentication:
    method: SystemAssignedManagedIdentity
    systemAssignedManagedIdentitySettings: {}

Wenn Sie die Zielgruppe der systemseitig zugewiesenen verwalteten Identität außer Kraft setzen müssen, können Sie die Einstellung audience angeben.

dataLakeStorageSettings: {
  authentication: {
    method: 'SystemAssignedManagedIdentity'
    systemAssignedManagedIdentitySettings: {
        audience: 'https://<ACCOUNT>.blob.core.windows.net'
    }
  }
}

dataLakeStorageSettings:
  authentication:
    method: SystemAssignedManagedIdentity
    systemAssignedManagedIdentitySettings:
      audience: https://<ACCOUNT>.blob.core.windows.net

Zugriffstoken

Die Verwendung eines Zugriffstokens ist eine alternative Authentifizierungsmethode. Für diese Methode müssen Sie einen Kubernetes-Geheimschlüssel mit dem SAS-Token erstellen und in der DataflowEndpoint-Ressource auf den geheimen Schlüssel verweisen.

Rufen Sie ein SAS-Token für ein Azure Data Lake Storage Gen2 (ADLSv2) Konto ab. Verwenden Sie zum Beispiel das Azure-Portal, um Ihr Speicherkonto aufzurufen. Wählen Sie im linken Menü Sicherheit und Netzwerk>Shared Access Signature aus. Verwenden Sie die folgende Tabelle, um die erforderlichen Berechtigungen festzulegen.

Parameter	Aktivierte Einstellung
Zulässige Dienste	Blob
Zulässige Ressourcentypen	Objekt, Container
Zugelassene Berechtigungen	Lesen, Schreiben, Löschen, Auflisten, Erstellen

Um die Sicherheit zu verbessern und dem Prinzip der geringsten Rechte zu folgen, können Sie ein SAS-Token für einen bestimmten Container generieren. Um Authentifizierungsfehler zu verhindern, stellen Sie sicher, dass der im SAS-Token angegebene Container mit der Zieleinstellung des Dataflows in der Konfiguration übereinstimmt.

Geben Sie den geheimen Namen des Zugriffstokens ein, den Sie in Geheimer Zugriffstokenname erstellt haben.

Weitere Informationen über geheime Schlüssel finden Sie unter Verwalten von Geheimnissen für Ihre Bereitstellung von Azure IoT Einsatz Preview.

dataLakeStorageSettings: {
  authentication: {
    method: 'AccessToken'
    accessTokenSettings: {
      secretRef: '<SAS_SECRET_NAME>'
    }
  }
}

Erstellen Sie ein Kubernetes-Geheimnis mit dem SAS-Token.

kubectl create secret generic <SAS_SECRET_NAME> -n azure-iot-operations \
--from-literal=accessToken='sv=2022-11-02&ss=b&srt=c&sp=rwdlax&se=2023-07-22T05:47:40Z&st=2023-07-21T21:47:40Z&spr=https&sig=<signature>'

dataLakeStorageSettings:
  authentication:
    method: AccessToken
    accessTokenSettings:
      secretRef: <SAS_SECRET_NAME>

Benutzerseitig zugewiesene verwaltete Identität

Um die benutzerseitig verwaltete Identität für die Authentifizierung zu verwenden, müssen Sie zuerst Azure IoT Einsatz mit aktivierten sicheren Einstellungen bereitstellen. Weitere Informationen finden Sie unter Aktivieren sicherer Einstellungen in der Bereitstellung von Azure IoT Einsatz (Vorschau).

Geben Sie dann die Authentifizierungsmethode mit benutzerseitig zugewiesener verwalteter Identität zusammen mit der Client-ID, der Mandanten-ID und dem Bereich der verwalteten Identität an.

Wählen Sie auf der Seite „Einstellungen“ für den Dataflowendpunkt auf der Einsatz-Benutzeroberfläche die Registerkarte Allgemeine Informationen und dann Authentifizierungsmethode>Benutzerseitig zugewiesene verwaltete Identität aus.

Geben Sie die Client-ID der benutzerseitig zugewiesenen verwalteten Identitätsclient-ID und die Mandanten-ID in die entsprechenden Felder ein.

dataLakeStorageSettings: {
  authentication: {
    method: 'UserAssignedManagedIdentity'
    userAssignedManagedIdentitySettings: {
      cliendId: '<ID>'
      tenantId: '<ID>'
      // Optional, defaults to 'https://storage.azure.com/.default'
      // scope: 'https://<SCOPE_URL>'
    }
  }
}

dataLakeStorageSettings:
  authentication:
    method: UserAssignedManagedIdentity
    userAssignedManagedIdentitySettings:
      clientId: <ID>
      tenantId: <ID>
      # Optional, defaults to 'https://storage.azure.com/.default'
      # scope: https://<SCOPE_URL>

Hier ist der Umfang optional und standardmäßig auf https://storage.azure.com/.default festgelegt. Wenn Sie den Standardbereich überschreiben müssen, geben Sie die Einstellung scope über das Bicep- oder Kubernetes-Manifest an.

Erweiterte Einstellungen

Sie können erweiterte Einstellungen für den Azure Data Lake Storage Gen2-Endpunkt festlegen, z. B. die Batchlatenz und die Nachrichtenanzahl.

Verwenden Sie die batching-Einstellungen, um die maximale Anzahl von Nachrichten und die maximale Latenz zu konfigurieren, bevor die Nachrichten an das Ziel gesendet werden. Diese Einstellung ist nützlich, wenn Sie die Netzwerkbandbreite optimieren und die Anzahl der Anforderungen an das Ziel reduzieren möchten.

Feld	Beschreibung	Erforderlich
`latencySeconds`	Die maximale Anzahl von Sekunden, die vor dem Senden der Nachrichten an das Ziel gewartet werden sollen. Der Standardwert beträgt 60 Sekunden.	No
`maxMessages`	Die Maximale Anzahl der Nachrichten, die an das Ziel gesendet werden sollen. Der Standardwert beträgt 100.000 Meldungen.	No

Wenn Sie beispielsweise die maximale Anzahl von Nachrichten auf 1000 und die maximale Latenz auf 100 Sekunden konfigurieren möchten, verwenden Sie die folgenden Einstellungen:

Wählen Sie auf der Einsatz-Benutzeroberfläche die Registerkarte Erweitert für den Dataflowendpunkt aus.

Screenshot, der die Erfahrung aus dem Einsatz nutzt, um erweiterte Einstellungen für ADLS V2 festzulegen.

dataLakeStorageSettings: {
  batching: {
    latencySeconds: 100
    maxMessages: 1000
  }
}

dataLakeStorageSettings:
  batching:
    latencySeconds: 100
    maxMessages: 1000

Nächste Schritte

Weitere Informationen zu Datenflüssen finden Sie unter Erstellen eines Datenflusses.

Freigeben über