Laden von Daten mithilfe eines externen Speicherorts von Unity Catalog

Wichtig

Dieses Feature befindet sich in der Public Preview.

In diesem Artikel wird beschrieben, wie Sie mithilfe der Benutzeroberfläche zum Hinzufügen von Daten eine verwaltete Tabelle aus Daten in Azure Data Lake Storage Gen2 mithilfe eines externen Unity Catalog-Speicherorts erstellen. Ein externer Speicherort ist ein Objekt, das einen Cloudspeicherpfad mit Speicheranmeldeinformationen kombiniert, die einen Zugriff auf den Cloudspeicherpfad autorisieren.

Voraussetzungen

Bevor Sie mit diesem Lernprogramm beginnen können, benötigen Sie Folgendes:

Dateitypen

Die folgenden Dateitypen werden nicht unterstützt:

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO
  • Parquet

Schritt 1: Überprüfen des Zugriffs auf den externen Speicherort

Gehen Sie wie folgt vor, um den Zugriff auf den externen Speicherort zu überprüfen:

  1. Klicken Sie in der Seitenleiste Ihres Azure Databricks-Arbeitsbereichs auf Katalog.
  2. Klicken Sie im Katalog-Explorer auf Externe Daten>Externe Speicherorte.

Schritt 2: Erstellen der verwalteten Tabelle

Gehen Sie wie folgt vor, um die verwaltete Tabelle zu erstellen:

  1. Klicken Sie in der Seitenleiste Ihres Arbeitsbereichs auf + Neu>Daten hinzufügen.

  2. Klicken Sie auf der Benutzeroberfläche zum Hinzufügen von Daten auf Azure Data Lake Storage.

  3. Wählen Sie in der Dropdownliste einen externen Speicherort aus.

  4. Wählen Sie die Ordner und Dateien aus, die Sie in Azure Databricks laden möchten, und klicken Sie dann auf Vorschau der Tabelle.

  5. Wählen Sie einen Katalog und ein Schema in den Dropdownlisten aus.

  6. (Optional) Bearbeiten Sie den Tabellennamen.

  7. (Optional) Klicken Sie zum Festlegen erweiterter Formatoptionen nach Dateityp auf Erweiterte Attribute, deaktivieren Sie Dateityp automatisch erkennen, und wählen Sie dann einen Dateityp aus.

    Eine Liste der Formatoptionen finden Sie im folgenden Abschnitt.

  8. (Optional) Um den Spaltennamen zu bearbeiten, klicken Sie oben in der Spalte auf das Eingabefeld.

    In Spaltennamen werden keine Kommas, umgekehrten Schrägstriche oder Unicode-Zeichen (z. B. Emojis) unterstützt.

  9. (Optional) Klicken Sie zum Bearbeiten von Spaltentypen auf das Symbol mit dem Typ.

  10. Klicken Sie auf Tabelle erstellen.

Formatoptionen für Dateitypen

Je nach Dateityp stehen die folgenden Formatoptionen zur Verfügung:

Formatoption Beschreibung Unterstützte Dateitypen
Column delimiter Das Trennzeichen zwischen Spalten. Es ist nur ein einzelnes Zeichen zulässig, und der umgekehrte Schrägstrich wird nicht unterstützt.

Der Standardwert ist ein Komma.
CSV
Escape character Das Escapezeichen, das beim Analysieren der Daten verwendet werden soll.

Der Standardwert ist ein Anführungszeichen.
CSV
First row contains the header Diese Option gibt an, ob die Datei einen Header enthält.

Standardmäßig aktiviert.
CSV
Automatically detect file type Dateityp automatisch erkennen. Der Standardwert ist true. XML
Automatically detect column types Erkennt automatisch Spaltentypen im Dateiinhalt. Sie können die Typen in der Vorschautabelle bearbeiten. Wenn diese Option auf „false“ festgelegt ist, werden alle Spaltentypen als STRING abgeleitet.

Standardmäßig aktiviert.
– CSV

– JSON
– XML
Rows span multiple lines Gibt an, ob sich der Wert einer Spalte auf mehrere Zeilen in der Datei erstrecken kann.

Standardmäßig deaktiviert.
– CSV

– JSON
Merge the schema across multiple files Gibt an, ob das Schema über mehrere Dateien hinweg abgeleitet und das Schema der einzelnen Dateien zusammengeführt werden soll.

Standardmäßig aktiviert.
CSV
Allow comments Gibt an, ob Kommentare in der Datei zulässig sind.

Standardmäßig aktiviert.
JSON
Allow single quotes Gibt an, ob einfache Anführungszeichen in der Datei zulässig sind.

Standardmäßig aktiviert.
JSON
Infer timestamp Gibt an, ob versucht werden soll, Zeitstempelzeichenfolgen als TimestampType abzuleiten.

Standardmäßig aktiviert.
JSON
Rescued data column Gibt an, ob Spalten gespeichert werden sollen, die nicht dem Schema entsprechen. Weitere Informationen finden Sie unter Was ist die Spalte „rescued data“ (gerettete Daten)?.

Standardmäßig aktiviert.
– CSV

– JSON
– Avro
– Parquet
Exclude attribute Gibt an, ob Attribute in Elementen ausgeschlossen werden. Der Standardwert ist false. XML
Attribute prefix Das Präfix für Attribute, um Attribute und Elemente zu unterscheiden. Der Standardwert ist _. XML

Spaltendatentypen

Die folgenden Spaltendatentypen werden unterstützt. Weitere Informationen zu einzelnen Datentypen finden Sie unter SQL-Datentypen.

Datentyp BESCHREIBUNG
BIGINT Ganze Zahlen mit Vorzeichen und einer Länge von 8 Byte
BOOLEAN Boolesche Werte (true, false)
DATE Tag ohne Zeitzone
DECIMAL (P,S) Zahlen mit maximaler Genauigkeit P und fester Skala S
DOUBLE Gleitkommazahlen mit doppelter Genauigkeit und einer Länge von 8 Byte
STRING Zeichenfolgenwerte
TIMESTAMP Werte, die sich aus Feldern für Jahr, Monat, Tag, Stunde, Minute und Sekunde mit der lokalen Zeitzone der Sitzung zusammensetzen

Bekannte Probleme

  • Möglicherweise treten Probleme mit Sonderzeichen in komplexen Datentypen auf, z. B. bei einem JSON-Objekt mit einem Schlüssel, der ein Graviszeichen oder einen Doppelpunkt enthält.
  • Einige JSON-Dateien erfordern möglicherweise, dass Sie manuell „JSON“ als Dateityp auswählen. Klicken Sie zum manuellen Auswählen eines Dateityps nach dem Auswählen von Dateien auf Erweiterte Attribute, deaktivieren Sie Dateityp automatisch erkennen, und wählen Sie dann JSON aus.
  • Bei geschachtelten Zeitstempeln und Dezimalzahlen in komplexen Typen treten möglicherweise Probleme auf.