Data Lake di genomica
Data lake di Genomica offre vari set di dati pubblici a cui è possibile accedere gratuitamente e integrarsi nei flussi di lavoro e nelle applicazioni di analisi genomica. I set di dati comprendono sequenze di genoma, informazioni sulle varianti e metadati di campioni/soggetti nei formati di file BAM, FASTA, VCF, CSV.
Genomics Data Lake è ospitato nelle aree di Azure Stati Uniti occidentali 2 e Stati Uniti centro-occidentali. L'allocazione delle risorse di calcolo nelle aree Stati Uniti occidentali 2 e Stati Uniti centro-occidentali è consigliata per motivi di affinità.
Nota
L'uso dei set di dati è soggetto ai termini e alle condizioni impostati dai proprietari dei set di dati. Per i termini e le condizioni applicabili, vedere la pagina dei dettagli di ciascun set di dati.
Set di dati
Set di dati | Descrizione |
---|---|
Illumina Platinum Genomes | Illumina Platinum Genomes |
Human Reference Genomes | Human Reference Genomes |
ClinVar Annotations | ClinVar Annotations |
SnpEff | SnpEff: Annotazioni di varianti genomiche e casella degli strumenti per la previsione di effetti funzionali |
gnomAD | gnomAD: Genome Aggregation Database |
1000 Genomes | 1000 Genomes |
OpenCravat | OpenCravat: Aprire l'analisi personalizzata classificata di Variants Toolkit |
ENCODE | ENCODE: Enciclopedia degli elementi del DNA |
Aggregazione di risorse GATK | Aggregazione di risorse GATK |
Dati aperti TCGA | Dati aperti TCGA |
Pan UK-Biobank | Pan UK-Biobank |
Database ImmuneCODE | Database ImmuneCODE |
Aprire il set di dati Targets | Aprire il set di dati Targets |
Passaggi successivi
Visualizzare il resto dei set di dati nel catalogo dei set di dati aperti.