Data Lake do Genomics

Artigo
10/24/2024

O Genomics Data Lake fornece vários conjuntos de dados públicos que você pode acessar gratuitamente e integrar em seus fluxos de trabalho e aplicativos de análise genômica. Os conjuntos de dados incluem sequenciação de genomas, informações sobre variantes e metadados de sujeitos de experiências/exemplo nos formatos de ficheiro BAM, FASTA, VCF e CSV.

O Data Lake do Genomics está alojado nas regiões E.U.A. Oeste 2 e E.U.A. Centro-Oeste do Azure. A alocação de recursos de computação nas regiões E.U.A. Oeste 2 e E.U.A. Centro-Oeste é recomendada por questões de afinidade.

Nota

O uso de conjuntos de dados está sujeito aos termos e condições definidos pelos proprietários dos conjuntos de dados. Consulte a página de detalhes de cada conjunto de dados para obter os termos e condições aplicáveis.

Conjuntos de Dados

Conjuntos de Dados	Description
Illumina Platinum Genomes	Illumina Platinum Genomes
Human Reference Genomes	Human Reference Genomes
ClinVar Annotations	ClinVar Annotations
SnpEff	SnpEff: Anotações de variantes genômicas e caixa de ferramentas de previsão de efeitos funcionais
gnomAD	gnomAD: Base de Dados de Agregação Genômica
1000 Genomes	1000 Genomes
OpenCravat	OpenCravat: Open Custom Rank Analysis of Variants Toolkit
CÓDIGO	ENCODE: Enciclopédia de Elementos de DNA
Pacote de recursos GATK	Pacote de recursos do GATK
Dados Abertos TCGA	Dados Abertos TCGA
Pan Reino Unido-Biobank	Pan Reino Unido-Biobank
Base de dados ImmuneCODE	Base de dados ImmuneCODE
Conjunto de dados Open Targets	Conjunto de dados Open Targets

Próximos passos

Exiba o restante dos conjuntos de dados no catálogo Open Datasets.

Partilhar via

Data Lake do Genomics

Conjuntos de Dados

Próximos passos

Comentários

Recursos adicionais