Human Reference Genomes

Artigo
11/05/2024

Nota

Atualização importante 19/09/2024: Todos os URLs estão mudando. Estamos permitindo o acesso público a todos os contêineres do Genomics Data Lake. As "URLs assinadas" (assinaturas de acesso compartilhado) existentes serão desativadas em: 2024-11-04T00:00:00Z. Após esse período, os URLs sem uma cadeia de caracteres de consulta continuarão a funcionar, no entanto, os "URLs assinados" não funcionarão mais e retornarão um código de status HTTP 403. Planeie em conformidade aceder aos URLs públicos sem uma cadeia de caracteres de consulta após esta data (remova os carateres '?' e à direita).

Este conjunto de dados inclui duas referências do genoma humano reunidas pelo Genome Reference Consortium: Hg19 e Hg38.

Para obter mais informações sobre os dados do Hg19 (GRCh37), veja o relatório GRCh37 no NCBI.

Para obter mais informações sobre os dados do Hg38, veja o relatório GRCh38 no NCBI.

Pode encontrar mais detalhes sobre os dados no site NCBI RefSeq.

Nota

A Microsoft fornece os Conjuntos de Dados Abertos do Azure "no estado em que se encontram". A Microsoft não oferece garantias, expressas ou implícitas, garantias ou condições em relação ao seu uso dos conjuntos de dados. Na medida permitida pela legislação local, a Microsoft se isenta de qualquer responsabilidade por quaisquer danos ou perdas, incluindo diretos, consequenciais, especiais, indiretos, incidentais ou punitivos, resultantes do uso dos conjuntos de dados por parte do cliente.

Este conjunto de dados é disponibilizado de acordo com os termos originais em que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados obtidos junto da Microsoft.

Data source

Este conjunto de dados foi retirado de duas localizações FTP:

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

Os nomes de blob são prefixados começando com o segmento "vertebrate_mammalian" do URI.

Volumes de dados e frequência de atualização

Este conjunto de dados contém aproximadamente 10 GB de dados e é atualizado diariamente.

Localização de armazenamento

Este conjunto de dados é armazenado nas regiões Oeste dos EUA 2, Centro-Oeste dos EUA e Centro-Sul dos EUA Azure Azure. A alocação de recursos de computação no Oeste dos EUA 2 ou no Centro-Oeste dos EUA ou no Centro-Sul dos EUA é recomendada para fins de afinidade.

Acesso a Dados

Oeste dos EUA 2: 'https://datasetreferencegenomes.blob.core.windows.net/dataset'

Centro-Oeste dos EUA: 'https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset'

Token de SAS: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D

Centro-Sul dos EUA: 'https://datasetreferencegenomesc.blob.core.windows.net/dataset'

Token SAS: sv=2023-01-03&st=2024-02-12T20%3A07%3A21Z&se=2029-02-13T20%3A07%3A00Z&sr=c&sp=rl&sig=ASZYVyhqLOXKsT%2BcTR8MMblFeI4uZ%2Bnno%2FCnQk2RaFs%3D

Termos de Utilização

Os dados estão disponíveis sem restrições. Para obter mais informações e detalhes de citação, consulte o site NCBI Reference Sequence Database.

Contacto

Para quaisquer perguntas ou comentários sobre este conjunto de dados, entre em contato com o Genome Reference Consortium.

Acesso a dados

Azure Notebooks

azure-storage

Obtendo os genomas de referência de conjuntos de dados abertos do Azure

Vários dados de genómica pública foram carregados como um conjunto de dados abertos do Azure aqui. Criamos um serviço de blob vinculado a esse conjunto de dados aberto. Você pode encontrar exemplos de procedimento de chamada de dados do Azure Open Datasets para Reference Genomes conjunto de dados abaixo:

Os usuários podem chamar e baixar o seguinte caminho com este bloco de anotações: 'https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt'

Observação importante: os usuários precisam fazer logon em sua Conta do Azure por meio da CLI do Azure para exibir os dados com o SDK do Azure ML. Por outro lado, eles não precisam fazer nenhuma ação para baixar os dados.

Instale a CLI do Azure.

Chamando os dados de 'Conjuntos de Dados do Genoma de Referência'

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)

from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()

import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))

import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

Descarregar o ficheiro específico

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

Próximos passos

Exiba o restante dos conjuntos de dados no catálogo Open Datasets.

Partilhar via