TabularDataset Klass

Referens

Representerar en tabelldatauppsättning som ska användas i Azure Machine Learning.

En TabularDataset definierar en serie lazily-utvärderade, oföränderliga åtgärder för att läsa in data från datakällan till tabellrepresentation. Data läses inte in från källan förrän TabularDataset uppmanas att leverera data.

TabularDataset skapas med metoder som from_delimited_files från TabularDatasetFactory klassen .

Mer information finns i artikeln Lägg till & registrera datauppsättningar. Information om hur du kommer igång med en tabelldatauppsättning finns i https://aka.ms/tabulardataset-samplenotebook.

Initiera ett TabularDataset-objekt.

Konstruktorn ska inte anropas direkt. Datauppsättningen är avsedd att skapas med hjälp av TabularDatasetFactory klassen .

Arv: AbstractDataset

TabularDataset

Konstruktor

TabularDataset()

Kommentarer

En TabularDataset kan skapas från CSV-, TSV-, Parquet-filer eller SQL-frågor med hjälp from_* av -metoderna i TabularDatasetFactory klassen . Du kan utföra underinställningar på en TabularDataset som att dela, hoppa över och filtrera poster. Resultatet av underinställningen är alltid ett eller flera nya TabularDataset-objekt.

Du kan också konvertera en TabularDataset till andra format som en Pandas DataFrame. Den faktiska datainläsningen sker när TabularDataset uppmanas att leverera data till en annan lagringsmekanism (t.ex. en Pandas-dataram eller en CSV-fil).

TabularDataset kan användas som indata för en experimentkörning. Den kan också registreras på arbetsytan med ett angivet namn och hämtas med det namnet senare.

Metoder

download	Anteckning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental. Ladda ned filströmmar som definierats av datauppsättningen till den lokala sökvägen.
drop_columns	Ta bort de angivna kolumnerna från datauppsättningen. Om en tidsseriekolumn tas bort tas även motsvarande funktioner bort för den returnerade datauppsättningen.
filter	Anteckning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental. Filtrera data och lämna endast de poster som matchar det angivna uttrycket.
get_profile	Anteckning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental. Hämta dataprofil från den senaste profilkörningen som skickats för den här eller samma datauppsättning på arbetsytan.
get_profile_runs	Anteckning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental. Returnera tidigare profilkörningar som är associerade med den här eller samma datauppsättning på arbetsytan.
keep_columns	Behåll de angivna kolumnerna och ta bort alla andra från datauppsättningen. Om en tidsseriekolumn tas bort tas även motsvarande funktioner bort för den returnerade datauppsättningen.
mount	Anteckning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental. Skapa en kontexthanterare för montering av filströmmar som definieras av datauppsättningen som lokala filer.
partition_by	Partitionerade data kopieras och matas ut till det mål som anges av målet. skapa datauppsättningen från den utdatasökvägen med partitionsformat, registrera datauppsättningen om namnet anges, returnera datauppsättningen för den nya datasökvägen med partitioner `ds = Dataset.get_by_name('test') # indexed by country, state, partition_date # #1: call partition_by locally new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'], target=DataPath(datastore, "repartition")) partition_keys = newds.partition_keys # ['country'] # new_ds can be passed to PRS as input dataset`
random_split	Dela upp poster i datauppsättningen i två delar slumpmässigt och ungefär enligt den angivna procentandelen. Den första datamängden innehåller ungefär `percentage` av de totala posterna och den andra datauppsättningen för återstående poster.
skip	Hoppa över poster överst i datauppsättningen med det angivna antalet.
submit_profile_run	Anteckning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental. Skicka en experimentkörning för att beräkna dataprofilen. En dataprofil kan vara mycket användbar för att förstå indata, identifiera avvikelser och saknade värden genom att tillhandahålla användbar information om data som kolumntyp, saknade värden osv.
take	Ta ett urval av poster överst i datamängden med det angivna antalet.
take_sample	Ta ett slumpmässigt urval av poster i datamängden ungefär med den angivna sannolikheten.
time_after	Filtrera TabularDataset med tidsstämpelkolumner efter en angiven starttid.
time_before	Filtrera TabularDataset med tidsstämpelkolumner före en angiven sluttid.
time_between	Filtrera TabularDataset mellan en angiven start- och sluttid.
time_recent	Filtrera TabularDataset så att den endast innehåller den angivna varaktigheten (mängden) senaste data.
to_csv_files	Konvertera den aktuella datauppsättningen till en FileDataset som innehåller CSV-filer. Den resulterande datamängden innehåller en eller flera CSV-filer som var och en motsvarar en partition med data från den aktuella datauppsättningen. Dessa filer materialiseras inte förrän de laddas ned eller läss från.
to_dask_dataframe	Anteckning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental. Returnera en Dask DataFrame som lätt kan läsa data i datauppsättningen.
to_pandas_dataframe	Läs in alla poster från datauppsättningen till en Pandas DataFrame.
to_parquet_files	Konvertera den aktuella datauppsättningen till en FileDataset som innehåller Parquet-filer. Den resulterande datamängden innehåller en eller flera Parquet-filer som var och en motsvarar en partition med data från den aktuella datauppsättningen. Dessa filer materialiseras inte förrän de laddas ned eller läss från.
to_spark_dataframe	Läs in alla poster från datauppsättningen till en Spark DataFrame.
with_timestamp_columns	Definiera tidsstämpelkolumner för datauppsättningen.

download

Anteckning

Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.

Ladda ned filströmmar som definierats av datauppsättningen till den lokala sökvägen.

download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)

Parametrar

Name	Description
stream_column Obligatorisk	str Dataströmkolumnen som ska laddas ned.
target_path Obligatorisk	str Den lokala katalog som filerna ska laddas ned till. Om inga data hämtas till en tillfällig katalog.
overwrite Obligatorisk	bool Anger om befintliga filer ska skrivas över. Standardvärdet är False. Befintliga filer skrivs över om överskrivning har angetts till Sant. annars utlöses ett undantag.
ignore_not_found Obligatorisk	bool Anger om nedladdningen misslyckas om vissa filer som datauppsättningen pekar på inte hittas. Standardvärdet är True. Nedladdningen misslyckas om någon filhämtning misslyckas av någon anledning om ignore_not_found har angetts till Falskt. Annars loggas en waring för fel som inte hittas och dowload lyckas så länge inga andra feltyper påträffas.

Returer

Typ	Description
ndarray	Returnerar en matris med filsökvägar för varje fil som laddas ned.

drop_columns

Ta bort de angivna kolumnerna från datauppsättningen.

Om en tidsseriekolumn tas bort tas även motsvarande funktioner bort för den returnerade datauppsättningen.

drop_columns(columns)

Parametrar

Name	Description
columns Obligatorisk	Union[str, list[str]] Namnet eller en lista med namn som kolumnerna ska släppa.

Returer

Typ	Description
TabularDataset	Returnerar ett nytt TabularDataset-objekt med de angivna kolumnerna borttagna.

filter

Anteckning

Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.

Filtrera data och lämna endast de poster som matchar det angivna uttrycket.

filter(expression)

Parametrar

Name	Description
expression Obligatorisk	any Uttrycket som ska utvärderas.

Returer

Typ	Description
TabularDataset	Den ändrade datauppsättningen (avregistrerad).

Kommentarer

Uttryck startas genom att datauppsättningen indexeras med namnet på en kolumn. De stöder en mängd olika funktioner och operatorer och kan kombineras med hjälp av logiska operatorer. Det resulterande uttrycket utvärderas lazily för varje post när en datahämtning sker och inte där den definieras.


   dataset['myColumn'] > dataset['columnToCompareAgainst']
   dataset['myColumn'].starts_with('prefix')

get_profile

Anteckning

Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.

Hämta dataprofil från den senaste profilkörningen som skickats för den här eller samma datauppsättning på arbetsytan.

get_profile(workspace=None)

Parametrar

Name	Description
workspace Obligatorisk	Workspace Arbetsytan där profilkörningen skickades. Standardvärdet är arbetsytan för den här datauppsättningen. Krävs om datauppsättningen inte är associerad med en arbetsyta. Mer https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace information om arbetsytor finns i.

Returer

Typ	Description
DatasetProfile	Profilresultat från den senaste profilkörningen av typen DatasetProfile.

get_profile_runs

Anteckning

Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.

Returnera tidigare profilkörningar som är associerade med den här eller samma datauppsättning på arbetsytan.

get_profile_runs(workspace=None)

Parametrar

Name	Description
workspace Obligatorisk	Workspace Arbetsytan där profilkörningen skickades. Standardvärdet är arbetsytan för den här datauppsättningen. Krävs om datauppsättningen inte är associerad med en arbetsyta. Mer https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace information om arbetsytor finns i.

Returer

Typ	Description
iter(Run)	iteratorobjekt av typen azureml.core.Run.

keep_columns

Behåll de angivna kolumnerna och ta bort alla andra från datauppsättningen.

Om en tidsseriekolumn tas bort tas även motsvarande funktioner bort för den returnerade datauppsättningen.

keep_columns(columns, validate=False)

Parametrar

Name	Description
columns Obligatorisk	Union[str, list[str]] Namnet eller en lista med namn som kolumnerna ska behålla.
validate Obligatorisk	bool Anger om du vill verifiera om data kan läsas in från den returnerade datauppsättningen. Standardvärdet är False. Verifieringen kräver att datakällan är tillgänglig från den aktuella beräkningen.

Returer

Typ	Description
TabularDataset	Returnerar ett nytt TabularDataset-objekt med endast de angivna kolumnerna kvar.

mount

Anteckning

Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.

Skapa en kontexthanterare för montering av filströmmar som definieras av datauppsättningen som lokala filer.

mount(stream_column, mount_point=None)

Parametrar

Name	Description
stream_column Obligatorisk	str Dataströmkolumnen som ska monteras.
mount_point Obligatorisk	str Den lokala katalog som filerna ska monteras på. Om det är Ingen monteras data i en tillfällig katalog, som du kan hitta genom att anropa metoden MountContext.mount_point-instans .

Returer

Typ	Description
<xref:azureml.dataprep.fuse.daemon.MountContext>	Returnerar en kontexthanterare för att hantera monteringens livscykel.

partition_by

Partitionerade data kopieras och matas ut till det mål som anges av målet.

skapa datauppsättningen från den utdatasökvägen med partitionsformat, registrera datauppsättningen om namnet anges, returnera datauppsättningen för den nya datasökvägen med partitioner


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset

partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)

Parametrar

Name	Description
partition_keys Obligatorisk	list[str] Nödvändiga partitionsnycklar
target Obligatorisk	DataPath, Datastore eller tuple(Datastore, str) object Obligatoriskt, datalagringssökvägen där dataramen parquet-data laddas upp till. En GUID-mapp genereras under målsökvägen för att undvika konflikter.
name Obligatorisk	str Valfritt, Registreringsnamnet.
show_progress Obligatorisk	bool Valfritt anger om förloppet för uppladdningen ska visas i -konsolen. Standardvärdet är Sant.
partition_as_file_dataset Obligatorisk	Valfritt, anger om returnerar en fildatauppsättning eller inte. Standardvärdet är Falskt.

Returer

Typ	Description
TabularDataset	Den sparade eller registrerade datauppsättningen.

random_split

Dela upp poster i datauppsättningen i två delar slumpmässigt och ungefär enligt den angivna procentandelen.

Den första datamängden innehåller ungefär percentage av de totala posterna och den andra datauppsättningen för återstående poster.

random_split(percentage, seed=None)

Parametrar

Name	Description
percentage Obligatorisk	float Den ungefärliga procentandelen som datamängden ska delas med. Detta måste vara ett tal mellan 0,0 och 1,0.
seed Obligatorisk	int Valfritt frö som ska användas för den slumpmässiga generatorn.

Returer

Typ	Description
(TabularDataset, TabularDataset)	Returnerar en tupplar med nya TabularDataset-objekt som representerar de två datauppsättningarna efter delningen.

skip

Hoppa över poster överst i datauppsättningen med det angivna antalet.

skip(count)

Parametrar

Name	Description
count Obligatorisk	int Antalet poster som ska hoppa över.

Returer

Typ	Description
TabularDataset	Returnerar ett nytt TabularDataset-objekt som representerar en datauppsättning med överhoppade poster.

submit_profile_run

Anteckning

Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.

Skicka en experimentkörning för att beräkna dataprofilen.

En dataprofil kan vara mycket användbar för att förstå indata, identifiera avvikelser och saknade värden genom att tillhandahålla användbar information om data som kolumntyp, saknade värden osv.

submit_profile_run(compute_target, experiment, cache_datastore_name=None)

Parametrar

Name	Description
compute_target Obligatorisk	Union[str, ComputeTarget] Beräkningsmålet som profilberäkningsexperimentet ska köras på. Ange "lokal" för att använda lokal beräkning. Mer https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget information om beräkningsmål finns i.
experiment Obligatorisk	Experiment Experimentobjektet. Mer https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment information om experiment finns i .
cache_datastore_name Obligatorisk	str namnet på datalagret för att lagra profilcachen, om inget används standarddatalagret

Returer

Typ	Description
DatasetProfileRun	Ett objekt av typen DatasetProfileRun-klass.

take

Ta ett urval av poster överst i datamängden med det angivna antalet.

take(count)

Parametrar

Name	Description
count Obligatorisk	int Antalet poster att ta.

Returer

Typ	Description
TabularDataset	Returnerar ett nytt TabularDataset-objekt som representerar den exempelbaserade datamängden.

take_sample

Ta ett slumpmässigt urval av poster i datamängden ungefär med den angivna sannolikheten.

take_sample(probability, seed=None)

Parametrar

Name	Description
probability Obligatorisk	float Sannolikheten för att en post inkluderas i exemplet.
seed Obligatorisk	int Valfritt frö som ska användas för den slumpmässiga generatorn.

Returer

Typ	Description
TabularDataset	Returnerar ett nytt TabularDataset-objekt som representerar den exempelbaserade datamängden.

time_after

Filtrera TabularDataset med tidsstämpelkolumner efter en angiven starttid.

time_after(start_time, include_boundary=True, validate=True)

Parametrar

Name	Description
start_time Obligatorisk	datetime Den nedre gränsen för filtrering av data.
include_boundary Obligatorisk	bool Ange om raden som är associerad med gränstiden (`start_time`) ska inkluderas.
validate Obligatorisk	bool Anger om du vill verifiera om det finns angivna kolumner i datauppsättningen. Standardvärdet är Sant. Verifieringen kräver att datakällan är tillgänglig från den aktuella beräkningen.

Returer

Typ	Description
TabularDataset	En TabularDataset med den nya filtrerade datauppsättningen.

time_before

Filtrera TabularDataset med tidsstämpelkolumner före en angiven sluttid.

time_before(end_time, include_boundary=True, validate=True)

Parametrar

Name	Description
end_time Obligatorisk	datetime Övre gräns för filtrering av data.
include_boundary Obligatorisk	bool Ange om raden som är associerad med gränstiden (`end_time`) ska inkluderas.
validate Obligatorisk	bool Anger om du vill verifiera om det finns angivna kolumner i datauppsättningen. Standardvärdet är Sant. Verifieringen kräver att datakällan är tillgänglig från den aktuella beräkningen.

Returer

Typ	Description
TabularDataset	En TabularDataset med den nya filtrerade datauppsättningen.

time_between

Filtrera TabularDataset mellan en angiven start- och sluttid.

time_between(start_time, end_time, include_boundary=True, validate=True)

Parametrar

Name	Description
start_time Obligatorisk	datetime Nedre gräns för filtrering av data.
end_time Obligatorisk	datetime Den övre gränsen för filtrering av data.
include_boundary Obligatorisk	bool Ange om raden som är associerad med gränstiden (`start_end` och `end_time`) ska inkluderas.
validate Obligatorisk	bool Anger om du vill verifiera om det finns angivna kolumner i datauppsättningen. Standardvärdet är Sant. Verifieringen kräver att datakällan är tillgänglig från den aktuella beräkningen.

Returer

Typ	Description
TabularDataset	En TabularDataset med den nya filtrerade datauppsättningen.

time_recent

Filtrera TabularDataset så att den endast innehåller den angivna varaktigheten (mängden) senaste data.

time_recent(time_delta, include_boundary=True, validate=True)

Parametrar

Name	Description
time_delta Obligatorisk	timedelta Varaktigheten (mängden) för de senaste data som ska hämtas.
include_boundary Obligatorisk	bool Ange om raden som är associerad med gränstiden (`time_delta`) ska inkluderas.
validate Obligatorisk	bool Anger om du vill verifiera om det finns angivna kolumner i datauppsättningen. Standardvärdet är Sant. Verifieringen kräver att datakällan är tillgänglig från den aktuella beräkningen.

Returer

Typ	Description
TabularDataset	En TabularDataset med den nya filtrerade datauppsättningen.

to_csv_files

Konvertera den aktuella datauppsättningen till en FileDataset som innehåller CSV-filer.

Den resulterande datamängden innehåller en eller flera CSV-filer som var och en motsvarar en partition med data från den aktuella datauppsättningen. Dessa filer materialiseras inte förrän de laddas ned eller läss från.

to_csv_files(separator=',')

Parametrar

Name	Description
separator Obligatorisk	str Avgränsaren som ska användas för att separera värden i den resulterande filen.

Returer

Typ	Description
FileDataset	Returnerar ett nytt FileDataset-objekt med en uppsättning CSV-filer som innehåller data i den här datauppsättningen.

to_dask_dataframe

Anteckning

Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.

Returnera en Dask DataFrame som lätt kan läsa data i datauppsättningen.

to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')

Parametrar

Name	Description
sample_size Obligatorisk	Antalet poster som ska läsas för att fastställa scheman och typer.
dtypes Obligatorisk	En valfri diktamen som anger förväntade kolumner och deras dtypes. sample_size ignoreras om detta anges.
on_error Obligatorisk	Hantera eventuella felvärden i datauppsättningen, till exempel de som genereras av ett fel vid parsning av värden. Giltiga värden är "null" som ersätter dem med null. och "fail" vilket resulterar i ett undantag.
out_of_range_datetime Obligatorisk	Så här hanterar du datum-tidsvärden som ligger utanför det intervall som stöds av Pandas. Giltiga värden är "null" som ersätter dem med null. och "fail" vilket resulterar i ett undantag.

Returer

Typ	Description
	dask.dataframe.core.DataFrame

to_pandas_dataframe

Läs in alla poster från datauppsättningen till en Pandas DataFrame.

to_pandas_dataframe(on_error='null', out_of_range_datetime='null')

Parametrar

Name	Description
on_error Obligatorisk	Hantera eventuella felvärden i datauppsättningen, till exempel de som genereras av ett fel vid parsning av värden. Giltiga värden är "null" som ersätter dem med null. och "fail" vilket resulterar i ett undantag.
out_of_range_datetime Obligatorisk	Så här hanterar du datum-tidsvärden som ligger utanför det intervall som stöds av Pandas. Giltiga värden är "null" som ersätter dem med null. och "fail" vilket resulterar i ett undantag.

Returer

Typ	Description
DataFrame	Returnerar en Pandas DataFrame.

to_parquet_files

Konvertera den aktuella datauppsättningen till en FileDataset som innehåller Parquet-filer.

Den resulterande datamängden innehåller en eller flera Parquet-filer som var och en motsvarar en partition med data från den aktuella datauppsättningen. Dessa filer materialiseras inte förrän de laddas ned eller läss från.

to_parquet_files()

Returer

Typ	Description
FileDataset	Returnerar ett nytt FileDataset-objekt med en uppsättning Parquet-filer som innehåller data i den här datauppsättningen.

to_spark_dataframe

Läs in alla poster från datauppsättningen till en Spark DataFrame.

to_spark_dataframe()

Returer

Typ	Description
DataFrame	Returnerar en Spark DataFrame.

with_timestamp_columns

Definiera tidsstämpelkolumner för datauppsättningen.

with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)

Parametrar

Name	Description
timestamp Obligatorisk	str Namnet på kolumnen som tidsstämpel (används för att kallas fine_grain_timestamp) (valfritt). Standardvärdet är None (clear).
partition_timestamp Obligatorisk	str Namnet på kolumn partition_timestamp (används för att kallas grov korntidsstämpel) (valfritt). Standardvärdet är None (clear).
validate Obligatorisk	bool Anger om du vill verifiera om det finns angivna kolumner i datauppsättningen. Standardvärdet är Falskt. Verifieringen kräver att datakällan är tillgänglig från den aktuella beräkningen.

Returer

Typ	Description
TabularDataset	Returnerar en ny TabularDataset med definierade tidsstämpelkolumner.

Kommentarer

Metoden definierar kolumner som ska användas som tidsstämplar. Tidsstämpelkolumner i en datauppsättning gör det möjligt att behandla data som tidsseriedata och aktivera ytterligare funktioner. När både och anges partition_timestamp (used to be referred as coarse grain timestamp) för en datauppsättning timestamp (used to be referred as fine_grain_timestamp) ska de två kolumnerna representera samma tidslinje.

Attribut

timestamp_columns

Returnera tidsstämpelkolumnerna.

Returer

Typ	Description
(str, str)	Kolumnnamnen för tidsstämpeln (brukade kallas fine_grain_timestamp) och partition_timestamp (som används för att kallas grov korntidsstämpel) som definierats för datauppsättningen.

Dela via

TabularDataset Klass

Konstruktor

Kommentarer

Metoder

download

Parametrar

Returer

drop_columns

Parametrar

Returer

filter

Parametrar

Returer

Kommentarer

get_profile

Parametrar

Returer

get_profile_runs

Parametrar

Returer

keep_columns

Parametrar

Returer

mount

Parametrar

Returer

partition_by

Parametrar

Returer

random_split

Parametrar

Returer

skip

Parametrar

Returer

submit_profile_run

Parametrar

Returer

take

Parametrar

Returer

take_sample

Parametrar

Returer

time_after

Parametrar

Returer

time_before

Parametrar

Returer

time_between

Parametrar

Returer

time_recent

Parametrar

Returer

to_csv_files

Parametrar

Returer

to_dask_dataframe

Parametrar

Returer

to_pandas_dataframe

Parametrar

Returer

to_parquet_files

Returer

to_spark_dataframe

Returer

with_timestamp_columns

Parametrar

Returer

Kommentarer

Attribut

timestamp_columns

Returer

Feedback

Ytterligare resurser