Kopieren von Daten aus einer Webtabelle mithilfe von Azure Data Factory oder Synapse Analytics

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

In diesem Artikel wird beschrieben, wie Sie die Copy-Aktivität in Azure Data Factory- oder Azure Synapse Analytics-Pipelines verwenden, um Daten aus einer Webtabellendatenbank zu kopieren. Er baut auf dem Artikel zur Übersicht über die Kopieraktivität auf, der eine allgemeine Übersicht über die Kopieraktivität enthält.

Die Unterschiede zwischen diesem Webtabellenconnector, dem REST-Connector und dem HTTP-Connector sind die folgenden:

  • Webtabellenconnector: Dieser extrahiert Tabelleninhalte aus einer HTML-Webseite.
  • REST-Connector: Dieser unterstützt insbesondere das Kopieren von Daten aus RESTful-APIs.
  • HTTP-Connector: Dieser dient allgemein dazu, Daten von jedem HTTP-Endpunkt abzurufen, z. B. um Dateien herunterzuladen.

Unterstützte Funktionen

Für den Webtabellen-Connector werden die folgenden Funktionen unterstützt:

Unterstützte Funktionen IR
Kopieraktivität (Quelle/-) 0
Lookup-Aktivität 0

① Azure Integration Runtime ② Selbstgehostete Integration Runtime

Eine Liste der Datenspeicher, die als Quellen/Senken unterstützt werden, finden Sie in der Tabelle Unterstützte Datenspeicher.

Dieser Webconnector unterstützt insbesondere das Extrahieren von Tabelleninhalten einer HTML-Seite.

Voraussetzungen

Um diesen Webtabellenconnector verwenden zu können, müssen Sie eine selbstgehostete Integration Runtime einrichten. Im Artikel Selbstgehostete Integration Runtime finden Sie Details.

Erste Schritte

Sie können eines der folgenden Tools oder SDKs verwenden, um die Kopieraktivität mit einer Pipeline zu verwenden:

Erstellen eines verknüpften Dienstes mit Web Table über die Benutzeroberfläche

Verwenden Sie die folgenden Schritte, um einen mit Web Table verknüpften Dienst in der Benutzeroberfläche des Azure-Portals zu erstellen.

  1. Navigieren Sie in Ihrem Azure Data Factory- oder Synapse-Arbeitsbereich zu der Registerkarte „Verwalten“, wählen Sie „Verknüpfte Dienste“ aus und klicken Sie dann auf „Neu“:

  2. Suchen Sie nach Web, und wählen Sie den Connector Webtabelle aus.

    Select the Web Table connector.

  3. Konfigurieren Sie die Dienstdetails, testen Sie die Verbindung, und erstellen Sie den neuen verknüpften Dienst.

    Configure a linked service to Web Table.

Details zur Connector-Konfiguration

Die folgenden Abschnitte enthalten Details zu Eigenschaften, die zum Definieren von Data Factory-Entitäten speziell für den Webtabellenconnector verwendet werden.

Eigenschaften des verknüpften Diensts

Folgende Eigenschaften werden für den mit einer Webtabelle verknüpften Dienst unterstützt:

Eigenschaft Beschreibung Erforderlich
type Die type-Eigenschaft muss auf Folgendes festgelegt werden: Web Ja
url URL der Webquelle Ja
authenticationType Zulässiger Wert: Anonymous Ja
connectVia Die Integrationslaufzeit, die zum Herstellen einer Verbindung mit dem Datenspeicher verwendet werden muss. Eine selbstgehostete Integrationslaufzeit ist erforderlich, wie unter Voraussetzungen erwähnt wird. Ja

Beispiel:

{
    "name": "WebLinkedService",
    "properties": {
        "type": "Web",
        "typeProperties": {
            "url" : "https://en.wikipedia.org/wiki/",
            "authenticationType": "Anonymous"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Dataset-Eigenschaften

Eine vollständige Liste mit den Abschnitten und Eigenschaften, die zum Definieren von Datasets zur Verfügung stehen, finden Sie im Artikel zu Datasets. Dieser Abschnitt enthält eine Liste der Eigenschaften, die vom Dataset „Webtabelle“ unterstützt werden.

Legen Sie zum Kopieren von Daten aus einer Webtabelle die „type“-Eigenschaft des Datasets auf WebTable fest. Folgende Eigenschaften werden unterstützt:

Eigenschaft Beschreibung Erforderlich
type Die type-Eigenschaft des Datasets muss auf folgenden Wert festgelegt werden: WebTable Ja
path Eine relative URL zu der Ressource, die die Tabelle enthält. Nein. Wenn der Pfad nicht angegeben ist, wird nur die URL verwendet, die in der Definition des verknüpften Diensts angegeben ist.
Index Der Index der Tabelle in der Ressource. Im Abschnitt Abrufen des Indexes einer Tabelle auf einer HTML-Seite werden die Schritte zum Abrufen des Indexes einer Tabelle auf einer HTML-Seite beschrieben. Ja

Beispiel:

{
    "name": "WebTableInput",
    "properties": {
        "type": "WebTable",
        "typeProperties": {
            "index": 1,
            "path": "AFI's_100_Years...100_Movies"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Web linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Eigenschaften der Kopieraktivität

Eine vollständige Liste mit den Abschnitten und Eigenschaften zum Definieren von Aktivitäten finden Sie im Artikel Pipelines. Dieser Abschnitt enthält eine Liste der Eigenschaften, die von der Quelle „Webtabelle“ unterstützt werden.

Webtabelle als Quelle

Legen Sie zum Kopieren von Daten aus der Webtabelle den Quelltyp in der Kopieraktivität auf WebSource fest. Weitere Eigenschaften werden nicht unterstützt.

Beispiel:

"activities":[
    {
        "name": "CopyFromWebTable",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Web table input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "WebSource"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Abrufen des Indexes einer Tabelle auf einer HTML-Seite

Den Index einer Tabelle, die Sie in den Dataseteigenschaften konfigurieren müssen, können Sie beispielsweise wie folgt mit Excel 2016 abrufen:

  1. Starten Sie Excel 2016, und wechseln Sie zur Registerkarte Daten.

  2. Klicken Sie auf der Symbolleiste auf Neue Abfrage, zeigen Sie auf Aus anderen Quellen, und klicken Sie auf Aus dem Web.

    Power Query menu

  3. Geben Sie im Dialogfeld Aus dem Web die URL, die Sie im JSON-Code für den verknüpften Dienst verwenden möchten (Beispiel: https://en.wikipedia.org/wiki/), sowie den Pfad ein, den Sie für das Dataset angeben möchten (Beispiel: AFI%27s_100_Years...100_Movies), und klicken Sie anschließend auf OK.

    From Web dialog

    Die in diesem Beispiel verwendete URL lautet wie folgt: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies

  4. Falls das Dialogfeld Auf Webinhalt zugreifen angezeigt wird, wählen Sie die richtige URL und Authentifizierung aus, und klicken Sie auf Verbinden.

    Access Web content dialog box

  5. Klicken Sie in der Strukturansicht auf ein Tabellenelement um Inhalte aus der Tabelle anzuzeigen, und klicken Sie dann am unteren Rand auf Bearbeiten.

    Navigator dialog

  6. Klicken Sie im Fenster Abfrage-Editor auf der Symbolleiste auf die Schaltfläche Erweiterter Editor.

    Advanced Editor button

  7. Im Dialogfeld „Erweiterter Editor“ ist die Zahl neben „Quelle“ der Index.

    Advanced Editor - Index

Rufen Sie den Index bei Verwendung von Excel 2013 mit Microsoft Power Query für Excel ab. Ausführlichere Informationen finden Sie im Artikel Connect to a web page (Verbinden mit einer Webseite). Bei Verwendung von Microsoft Power BI Desktopwerden ähnliche Schritte verwendet.

Eigenschaften der Lookup-Aktivität

Ausführliche Informationen zu den Eigenschaften finden Sie unter Lookup-Aktivität.

Eine Liste der Datenspeicher, die als Quelles und Senken für die Kopieraktivität unterstützt werden, finden Sie in der Dokumentation für Unterstützte Datenspeicher.