Konfigurera Lakehouse i en kopieringsaktivitet
Den här artikeln beskriver hur du använder kopieringsaktiviteten i en datapipeline för att kopiera data från och till Fabric Lakehouse. Som standard skrivs data till Lakehouse Table i V-Order och du kan gå till Delta Lake-tabelloptimering och V-Order för mer information.
Format som stöds
Lakehouse stöder följande filformat. Se varje artikel för formatbaserade inställningar.
- Avro-format
- Binärt format
- Avgränsat textformat
- Excel-format
- JSON-format
- ORC-format
- Parquet-format
- XML-format
Konfiguration som stöds
För konfigurationen av varje flik under kopieringsaktivitet går du till följande avsnitt.
Allmänt
För flikkonfigurationen Allmänt går du till Allmänt.
Källa
Följande egenskaper stöds för Lakehouse under fliken Källa i en kopieringsaktivitet.
Följande egenskaper krävs:
Anslutning: Välj en Lakehouse-anslutning i anslutningslistan. Om det inte finns någon anslutning skapar du en ny Lakehouse-anslutning genom att välja Mer längst ned i anslutningslistan. Om du använder Använd dynamiskt innehåll för att ange lakehouse lägger du till en parameter och anger Lakehouse-objekt-ID som parametervärde. Om du vill hämta ditt Lakehouse-objekt-ID öppnar du Lakehouse på din arbetsyta och ID:t är efter
/lakehouses/
i url:en.Rotmapp: Välj Tabeller eller filer, vilket anger den virtuella vyn för det hanterade eller ohanterade området i din sjö. Mer information finns i Lakehouse-introduktionen.
Om du väljer Tabeller:
Tabellnamn: Välj en befintlig tabell i tabelllistan eller ange ett tabellnamn som källa. Eller så kan du välja Ny för att skapa en ny tabell.
Tabell: När du använder Lakehouse med scheman i anslutningen väljer du en befintlig tabell med ett schema i tabelllistan eller anger en tabell med ett schema som källa. Eller så kan du välja Ny för att skapa en ny tabell med ett schema. Om du inte anger något schemanamn använder tjänsten dbo som standardschema.
Under Avancerat kan du ange följande fält:
- Tidsstämpel: Ange för att köra frågor mot en äldre ögonblicksbild efter tidsstämpel.
- Version: Ange om du vill köra frågor mot en äldre ögonblicksbild efter version.
- Ytterligare kolumner: Lägg till ytterligare datakolumner i lagringskällans relativa sökväg eller statiska värde. Uttrycket stöds för det senare.
Läsarversion 1 stöds. Du hittar motsvarande Delta Lake-funktioner som stöds i den här artikeln.
Om du väljer Filer:
Filsökvägstyp: Du kan välja Filsökväg, Sökväg till jokertecken eller Lista över filer som filsökvägstyp. I följande lista beskrivs konfigurationen för varje inställning:
Filsökväg: Välj Bläddra för att välja den fil som du vill kopiera eller fyll i sökvägen manuellt.
Sökväg till jokerteckenfil: Ange mappen eller filsökvägen med jokertecken under ditt angivna ohanterade lakehouse-område (under Filer) för att filtrera källmappar eller -filer. Tillåtna jokertecken är:
*
(matchar noll eller fler tecken) och?
(matchar noll eller enskilt tecken). Använd^
för att fly om mappen eller filnamnet har jokertecken eller det här escape-tecknet inuti.Sökväg till jokerteckenmapp: Sökvägen till mappen under den angivna containern. Om du vill använda ett jokertecken för att filtrera mappen hoppar du över den här inställningen och anger den informationen i inställningarna för aktivitetskällan.
Namn på jokerteckenfil: Filnamnet under det angivna ohanterade området i Lakehouse (under Filer) och mappsökvägen.
Lista över filer: Anger att en angiven filuppsättning ska kopieras.
- Mappsökväg: Pekar på en mapp som innehåller filer som du vill kopiera.
- Sökväg till fillista: Pekar på en textfil som innehåller en lista över filer som du vill kopiera, en fil per rad, vilket är den relativa sökvägen till den konfigurerade filsökvägen.
Rekursivt: Anger om data läse rekursivt från undermapparna eller endast från den angivna mappen. Om det är aktiverat bearbetas alla filer i indatamappen och dess undermappar rekursivt. Den här egenskapen gäller inte när du konfigurerar filsökvägstypen som Lista över filer.
Filformat: Välj filformatet i listrutan. Välj knappen Inställningar för att konfigurera filformatet. För inställningar för olika filformat, se artiklar i format som stöds för detaljerad information.
Under Avancerat kan du ange följande fält:
- Filtrera efter senast ändrad: Filer filtreras baserat på de senast ändrade datumen. Den här egenskapen gäller inte när du konfigurerar filsökvägstypen som Lista över filer.
- Starttid: Filerna väljs om deras senaste ändringstid är större än eller lika med den konfigurerade tiden.
- Sluttid: Filerna väljs om deras senaste ändringstid är mindre än den konfigurerade tiden.
- Aktivera partitionsidentifiering: För filer som är partitionerade anger du om du vill parsa partitionerna från filsökvägen och lägga till dem som extra källkolumner.
- Partitionsrotsökväg: När partitionsidentifiering är aktiverat anger du den absoluta rotsökvägen för att läsa partitionerade mappar som datakolumner.
- Maximalt antal samtidiga anslutningar: Anger den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar.
- Filtrera efter senast ändrad: Filer filtreras baserat på de senast ändrade datumen. Den här egenskapen gäller inte när du konfigurerar filsökvägstypen som Lista över filer.
Mål
Följande egenskaper stöds för Lakehouse under fliken Mål för en kopieringsaktivitet.
Följande egenskaper krävs:
Anslutning: Välj en Lakehouse-anslutning i anslutningslistan. Om det inte finns någon anslutning skapar du en ny Lakehouse-anslutning genom att välja Mer längst ned i anslutningslistan. Om du använder Använd dynamiskt innehåll för att ange lakehouse lägger du till en parameter och anger Lakehouse-objekt-ID som parametervärde. Om du vill hämta ditt Lakehouse-objekt-ID öppnar du Lakehouse på din arbetsyta och ID:t är efter
/lakehouses/
i url:en.Rotmapp: Välj Tabeller eller filer, vilket anger den virtuella vyn för det hanterade eller ohanterade området i din sjö. Mer information finns i Lakehouse-introduktionen.
Om du väljer Tabeller:
Tabellnamn: Välj en befintlig tabell i tabelllistan eller ange ett tabellnamn som mål. Eller så kan du välja Ny för att skapa en ny tabell.
Tabell: När du använder Lakehouse med scheman i anslutningen väljer du en befintlig tabell med ett schema i tabelllistan eller anger en tabell med ett schema som mål. Eller så kan du välja Ny för att skapa en ny tabell med ett schema. Om du inte anger något schemanamn använder tjänsten dbo som standardschema.
Under Avancerat kan du ange följande fält:
Tabellåtgärder: Ange åtgärden mot den valda tabellen.
Lägg till: Lägg till nya värden i en befintlig tabell.
- Aktivera partition: Med det här valet kan du skapa partitioner i en mappstruktur baserat på en eller flera kolumner. Varje distinkt kolumnvärde (par) är en ny partition. Till exempel "year=2000/month=01/file".
- Partitionskolumnnamn: Välj från målkolumnerna i schemamappningen när du lägger till data i en ny tabell. När du lägger till data i en befintlig tabell som redan har partitioner härleds partitionskolumnerna automatiskt från den befintliga tabellen. Datatyper som stöds är sträng, heltal, booleskt värde och datetime. Formatet respekterar typkonverteringsinställningarna under fliken Mappning .
- Aktivera partition: Med det här valet kan du skapa partitioner i en mappstruktur baserat på en eller flera kolumner. Varje distinkt kolumnvärde (par) är en ny partition. Till exempel "year=2000/month=01/file".
Skriv över: Skriv över befintliga data och scheman i tabellen med hjälp av de nya värdena. Om den här åtgärden har valts kan du aktivera partitionen i måltabellen:
- Aktivera partition: Med det här valet kan du skapa partitioner i en mappstruktur baserat på en eller flera kolumner. Varje distinkt kolumnvärde (par) är en ny partition. Till exempel "year=2000/month=01/file".
- Partitionskolumnnamn: Välj från målkolumnerna i schemamappningen. Datatyper som stöds är sträng, heltal, booleskt värde och datetime. Formatet respekterar typkonverteringsinställningarna under fliken Mappning .
Det stöder Delta Lake-tidsresor. Den överskrivna tabellen har deltaloggar för de tidigare versionerna, som du kan komma åt i Lakehouse. Du kan också kopiera den tidigare versionstabellen från Lakehouse genom att ange Version i kopieringsaktivitetskällan.
- Aktivera partition: Med det här valet kan du skapa partitioner i en mappstruktur baserat på en eller flera kolumner. Varje distinkt kolumnvärde (par) är en ny partition. Till exempel "year=2000/month=01/file".
Maximalt antal samtidiga anslutningar: Den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar.
Skrivversion 2 stöds. Du hittar motsvarande Delta Lake-funktioner som stöds i den här artikeln.
Om du väljer Filer:
Filsökväg: Välj Bläddra för att välja den fil som du vill kopiera eller fyll i sökvägen manuellt.
Filformat: Välj filformatet i listrutan. Välj Inställningar för att konfigurera filformatet. För inställningar för olika filformat, se artiklar i format som stöds för detaljerad information.
Under Avancerat kan du ange följande fält:
Kopieringsbeteende: Definierar kopieringsbeteendet när källan är filer från ett filbaserat datalager. Du kan välja Platta ut hierarki, Sammanfoga filer, Bevara hierarki eller Lägg till dynamiskt innehåll som kopieringsbeteende. Konfigurationen av varje inställning är:
Platta ut hierarki: Alla filer från källmappen är på den första nivån i målmappen. Målfilerna har automatiskt genererade namn.
Sammanfoga filer: Sammanfogar alla filer från källmappen till en fil. Om filnamnet anges är det kopplade filnamnet det angivna namnet. Annars är det ett automatiskt genererat filnamn.
Bevara hierarkin: Bevarar filhierarkin i målmappen. Den relativa sökvägen för en källfil till källmappen är identisk med den relativa sökvägen för en målfil till målmappen.
Lägg till dynamiskt innehåll: Om du vill ange ett uttryck för ett egenskapsvärde väljer du Lägg till dynamiskt innehåll. Det här fältet öppnar uttrycksverktyget där du kan skapa uttryck från systemvariabler som stöds, aktivitetsutdata, funktioner och användardefinierade variabler eller parametrar. Mer information om uttrycksspråket finns i Uttryck och funktioner.
Maximalt antal samtidiga anslutningar: Den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar.
Blockstorlek (MB): Ange blockstorleken i MB när du skriver data till Lakehouse. Det tillåtna värdet är mellan 4 MB och 100 MB.
Metadata: Ange anpassade metadata när du kopierar till måldatalagret. Varje objekt under matrisen
metadata
representerar en extra kolumn.name
Definierar namnet på metadatanyckelnvalue
och anger nyckelns datavärde. Om funktionen bevara attribut används kommer angivna metadata att kopplas/skrivas över med källfilens metadata. De tillåtna datavärdena är:
Mappning
Om du inte använder Lakehouse-tabellen som måldatalager går du till Mappning för flikkonfigurationen Mappning.
Om du använder Lakehouse-tabellen som måldatalager, förutom konfigurationen i Mappning, kan du redigera typen för målkolumnerna. När du har valt Importera scheman kan du ange kolumntypen i målet.
Till exempel är typen för PersonID-kolumnen i källan int och du kan ändra den till strängtyp vid mappning till målkolumn.
Kommentar
Redigering av måltypen stöds för närvarande inte när källan är decimaltyp.
Om du väljer Binärt som filformat stöds inte mappning.
Inställningar
För fliken Inställningar går du till Inställningar.
Tabellsammanfattning
Följande tabeller innehåller mer information om en kopieringsaktivitet i Lakehouse.
Källinformation
Name | Beskrivning | Värde | Obligatoriskt | JSON-skriptegenskap |
---|---|---|---|---|
Anslutning | Avsnittet för att välja din anslutning. | < din Lakehouse-anslutning> | Ja | workspaceId artifactId |
Rotmapp | Typ av rotmapp. | • Tabeller • Filer |
Nej | rootFolder: Tabell eller filer |
Tabellnamn | Namnet på den tabell som du vill läsa data. | <ditt tabellnamn> | Ja när du väljer Tabeller i rotmappen | table |
Tabell | Namnet på tabellen med ett schema som du vill läsa data när du använder Lakehouse med scheman som anslutning. | <tabellen med ett schema> | Ja när du väljer Tabeller i rotmappen | / |
För tabell | ||||
schemanamn | Namnet på schemat. | <ditt schemanamn> (standardvärdet är dbo) |
Nej | (under source ->datasetSettings ->typeProperties )schema |
tabellnamn | Tabellens namn. | <ditt tabellnamn> | Ja | table |
Tidsstämpel | Tidsstämpeln för att fråga en äldre ögonblicksbild. | <Tidsstämpel> | Nej | timestampAsOf |
Version: | Versionen för att köra frågor mot en äldre ögonblicksbild. | <version> | Nej | versionAsOf |
Ytterligare kolumner | Ytterligare datakolumner för att lagra källfilernas relativa sökväg eller statiska värde. Uttrycket stöds för det senare. | • Namn •Värde |
Nej | additionalColumns: •Namn •värde |
Filsökvägstyp | Typ av filsökväg som du använder. | • Filsökväg • Sökväg till jokerteckenfil • Lista över filer |
Ja när du väljer Filer i rotmappen | / |
Filsökväg | Kopiera från sökvägen till en mapp/fil under källdatalagret. | <filsökväg> | Ja när du väljer Filsökväg | • folderPath •filnamn |
Sökvägar med jokertecken | Mappsökvägen med jokertecken under källdatalagret som konfigurerats för att filtrera källmappar. | <sökvägar med jokertecken> | Ja när du väljer sökväg till jokerteckenfil | • jokerteckenFolderPath • jokerteckenFileName |
Mappsökväg | Pekar på en mapp som innehåller filer som du vill kopiera. | <mappsökväg> | Nej | folderPath |
Sökväg till fillista | Anger att en angiven filuppsättning ska kopieras. Peka på en textfil som innehåller en lista över filer som du vill kopiera, en fil per rad, vilket är den relativa sökvägen till den konfigurerade sökvägen. | <sökväg till fillista> | Nej | fileListPath |
Rekursivt | Bearbeta alla filer i indatamappen och dess undermappar rekursivt eller bara de i den valda mappen. Den här inställningen inaktiveras när en enskild fil har valts. | markera eller avmarkera | Nej | rekursiv: sant eller falskt |
Filformat | Filformatet för dina källdata. Information om olika filformat finns i artiklar i format som stöds för detaljerad information. | / | Ja när du väljer Filer i rotmappen | / |
Filtrera efter senast ändrad | Filerna med senast ändrad tid i intervallet [Starttid, Sluttid) filtreras för vidare bearbetning. Tiden tillämpas på UTC-tidszonen i formatet yyyy-mm-ddThh:mm:ss.fffZ .Den här egenskapen kan hoppas över, vilket innebär att inget filattributfilter tillämpas. Den här egenskapen gäller inte när du konfigurerar filsökvägstypen som Lista över filer. |
• Starttid • Sluttid |
Nej | modifiedDatetimeStart modifiedDatetimeEnd |
Aktivera partitionsidentifiering | Om du vill parsa partitionerna från filsökvägen och lägga till dem som extra källkolumner. | Markerad eller omarkerad | Nej | enablePartitionDiscovery: sant eller falskt (standard) |
Partitionsrotsökväg | Den absoluta partitionsrotsökvägen för att läsa partitionerade mappar som datakolumner. | <partitionens rotsökväg> | Nej | partitionRootPath |
Maximalt antal samtidiga anslutningar | Den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ett värde behövs bara när du vill begränsa samtidiga anslutningar. | <maximalt antal samtidiga anslutningar> | Nej | maxConcurrentConnections |
Målinformation
Name | Beskrivning | Värde | Obligatoriskt | JSON-skriptegenskap |
---|---|---|---|---|
Anslutning | Avsnittet för att välja din anslutning. | < din Lakehouse-anslutning> | Ja | workspaceId artifactId |
Rotmapp | Typ av rotmapp. | • Tabeller • Filer |
Ja | rootFolder: Tabell eller filer |
Tabellnamn | Namnet på den tabell som du vill skriva data till. | <ditt tabellnamn> | Ja när du väljer Tabeller i rotmappen | table |
Tabell | Namnet på tabellen med ett schema som du vill skriva data till när du använder Lakehouse med scheman som anslutning. | <tabellen med ett schema> | Ja när du väljer Tabeller i rotmappen | / |
För tabell | ||||
schemanamn | Namnet på schemat. | <ditt schemanamn> (standardvärdet är dbo) |
Nej | (under sink ->datasetSettings ->typeProperties )schema |
tabellnamn | Tabellens namn. | <ditt tabellnamn> | Ja | table |
Tabellåtgärd | Lägg till nya värden i en befintlig tabell eller skriv över befintliga data och scheman i tabellen med hjälp av de nya värdena. | • Lägg till • Skriv över |
Nej | tableActionOption: Lägg till eller skriv överschema |
Aktivera partitioner | Med den här markeringen kan du skapa partitioner i en mappstruktur baserat på en eller flera kolumner. Varje distinkt kolumnvärde (par) är en ny partition. Till exempel "year=2000/month=01/file". | Markerad eller omarkerad | Nej | partitionOption: PartitionByKey eller Ingen |
Partitionskolumner | Målkolumnerna i schemamappningen. | <dina partitionskolumner> | Nej | partitionNameList |
Filsökväg | Skriv data till sökvägen till en mapp/fil under måldatalagret. | <filsökväg> | Nej | • folderPath •filnamn |
Filformat | Filformatet för dina måldata. Information om olika filformat finns i artiklar i format som stöds för detaljerad information. | / | Ja när du väljer Filer i rotmappen | / |
Kopieringsbeteende | Kopieringsbeteendet som definieras när källan är filer från ett filbaserat datalager. | • Platta ut hierarki • Sammanfoga filer • Bevara hierarkin • Lägg till dynamiskt innehåll |
Nej | copyBehavior: • FlatHierarchy • MergeFiles • PreserveHierarchy |
Maximalt antal samtidiga anslutningar | Den övre gränsen för samtidiga anslutningar som upprättats till datalagret under aktivitetskörningen. Ange endast ett värde när du vill begränsa samtidiga anslutningar. | <maximalt antal samtidiga anslutningar> | Nej | maxConcurrentConnections |
Blockstorlek (MB) | Blockstorleken i MB som används för att skriva data till Lakehouse. Det tillåtna värdet är mellan 4 MB och 100 MB. | <blockstorlek> | Nej | blockSizeInMB |
Metadata | Den anpassade metadatauppsättningen vid kopiering till ett mål. | • $$LASTMODIFIED •Uttryck • Statiskt värde |
Nej | metadata |