Data Lake do Genomics

O Genomics Data Lake fornece vários conjuntos de dados públicos que você pode acessar gratuitamente e integrar em seus fluxos de trabalho e aplicativos de análise genômica. Os conjuntos de dados incluem sequenciação de genomas, informações sobre variantes e metadados de sujeitos de experiências/exemplo nos formatos de ficheiro BAM, FASTA, VCF e CSV.

O Data Lake do Genomics está alojado nas regiões E.U.A. Oeste 2 e E.U.A. Centro-Oeste do Azure. A alocação de recursos de computação nas regiões E.U.A. Oeste 2 e E.U.A. Centro-Oeste é recomendada por questões de afinidade.

Nota

O uso de conjuntos de dados está sujeito aos termos e condições definidos pelos proprietários dos conjuntos de dados. Consulte a página de detalhes de cada conjunto de dados para obter os termos e condições aplicáveis.

Conjuntos de Dados

Conjuntos de Dados Description
Illumina Platinum Genomes Illumina Platinum Genomes
Human Reference Genomes Human Reference Genomes
ClinVar Annotations ClinVar Annotations
SnpEff SnpEff: Anotações de variantes genômicas e caixa de ferramentas de previsão de efeitos funcionais
gnomAD gnomAD: Base de Dados de Agregação Genômica
1000 Genomes 1000 Genomes
OpenCravat OpenCravat: Open Custom Rank Analysis of Variants Toolkit
CÓDIGO ENCODE: Enciclopédia de Elementos de DNA
Pacote de recursos GATK Pacote de recursos do GATK
Dados Abertos TCGA Dados Abertos TCGA
Pan Reino Unido-Biobank Pan Reino Unido-Biobank
Base de dados ImmuneCODE Base de dados ImmuneCODE
Conjunto de dados Open Targets Conjunto de dados Open Targets

Próximos passos

Exiba o restante dos conjuntos de dados no catálogo Open Datasets.