Início Rápido: Executar um fluxo de trabalho por meio do serviço Microsoft Genomics
Neste início rápido, você carregará dados de entrada para uma conta de Armazenamento de Blobs do Azure e executará um fluxo de trabalho por meio do serviço do Microsoft Genomics usando o cliente Genomics Python. O Microsoft Genomics é um serviço seguro e escalonável para análise secundária que pode processar um genoma rapidamente, começando com leituras brutas e produzindo leituras alinhadas e chamadas variáveis.
Pré-requisitos
- Uma conta do Azure com uma assinatura ativa. Crie uma conta gratuitamente.
- Python 2.7.12+, com
pip
instalado epython
em seu caminho do sistema. O cliente Microsoft Genomics não é compatível com o Python 3.
Configurar: Criar uma conta do Microsoft Genomics no portal do Azure
Para criar uma conta do Microsoft Genomics, navegue até Criar uma conta do Genomics no portal do Azure. Caso ainda não tenha uma assinatura do Azure, crie uma antes de criar uma conta do Microsoft Genomics.
Configure sua conta do Genomics com as seguintes informações, conforme mostrado na imagem anterior.
Configuração | Valor sugerido | Descrição do campo |
---|---|---|
Subscription | O nome da sua assinatura | Essa é a unidade de cobrança para os serviços do Azure. Para obter detalhes sobre sua assinatura, consulte Assinaturas |
Resource group | MyResourceGroup | Grupos de recursos permitem agrupar vários recursos do Azure (conta de armazenamento, conta genômica, etc.) em um único grupo para um gerenciamento simples. Para saber mais, confira Grupos de Recursos. Para obter nomes válidos do grupo de recursos, consulte Regras de nomenclatura |
Nome da conta | MyGenomicsAccount | Escolha um identificador de conta exclusivo. Para nomes válidos, consulte Regras de nomenclatura |
Location | Oeste dos EUA 2 | O serviço está disponível em Oeste dos EUA 2, Europa Ocidental e Sudeste Asiático |
Você pode selecionar Notificações na barra de menus superior para monitorar o processo de implantação.
Para obter mais informações sobre o Microsoft Genomics, confira O que é Microsoft Genomics?
Configurar: Instalar o cliente do Python para o Microsoft Genomics
Você precisa instalar o Python e o cliente do Python msgen
do Microsoft Genomics no seu ambiente local.
Instalar o Python
O cliente Microsoft Genomics Python é compatível com o Python 2.7.12 ou com uma versão 2.7.xx posterior. 2.7.14 é a versão sugerida. Você pode encontrar o download aqui.
Importante
O Python 3.x não é compatível com o Python 2.7.xx. O msgen
é um aplicativo Python 2.7. Ao executar o msgen
, verifique se o ambiente ativo do Python está usando uma versão 2.7.xx do Python. Talvez você receba erros ao tentar usar o msgen
com uma versão 3.x do Python.
Instalar o cliente do Python msgen
do Microsoft Genomics
Use o pip
do Python para instalar o cliente Microsoft Genomics msgen
. As instruções a seguir pressupõem que o Python2.x já está no seu caminho do sistema. Se tiver problemas de não reconhecimento da instalação do pip
, você precisará adicionar o Python e a subpasta de scripts ao seu caminho do sistema.
pip install --upgrade --no-deps msgen
pip install msgen
Se não desejar instalar msgen
como um binário de todo o sistema nem modificar pacotes do Python de todo o sistema, use o sinalizador –-user
com pip
.
Ao você usar a instalação baseada em pacote ou setup.py, todos os pacotes necessários são instalados.
Testar o cliente do Python msgen
Para testar o cliente Microsoft Genomics, baixe o arquivo de configuração na sua conta do Genomics. No portal do Azure, navegue até sua conta do Genomics selecionando Todos os serviços na parte superior esquerda e pesquisando e selecionando contas do Genomics.
Selecione a conta do Genomics que acabou de criar, navegue até Chaves de Acesso e baixe o arquivo de configuração.
Teste o funcionamento do cliente Microsoft Genomics Python com o seguinte comando
msgen list -f "<full path where you saved the config file>"
Criar uma Conta de Armazenamento do Microsoft Azure
O serviço do Microsoft Genomics espera que entradas sejam armazenadas como blob de blocos em uma conta de armazenamento do Azure. Ele também grava arquivos de saída como blobs de blocos para um contêiner especificado pelo usuário em uma conta de armazenamento do Azure. As entradas e saídas podem residir em contas de armazenamento diferentes. Caso já tenha seus dados em uma conta de armazenamento do Azure, você precisa verificar se eles estão no mesmo local que sua conta do Genomics. Caso contrário, incorrem encargos de saída ao executar o serviço do Microsoft Genomics. Caso ainda não tenha uma conta de armazenamento do Azure, você precisará criar uma e carregar seus dados. Você pode encontrar mais informações sobre contas de armazenamento do Azure aqui, incluindo o que é uma conta de armazenamento e quais serviços ela fornece. Para criar uma conta de armazenamento do Azure, navegue até Criar conta de armazenamento no portal do Azure.
Configure sua conta de armazenamento com as informações a seguir, conforme mostrado na imagem anterior. Use a maioria das opções padrão para uma conta de armazenamento, apenas especificando que a conta é BlobStorage, não para uso geral. O armazenamento de blob pode ser de duas a cinco vezes mais rápido para downloads e uploads. O modelo de implantação padrão, Azure Resource Manager, é recomendado.
Configuração | Valor sugerido | Descrição do campo |
---|---|---|
Subscription | Sua assinatura do Azure | Para obter detalhes sobre sua assinatura, consulte Assinaturas |
Resource group | MyResourceGroup | Você pode selecionar o mesmo grupo de recursos que a sua conta do Genomics. Para obter nomes válidos do grupo de recursos, confira Regras de nomenclatura |
Nome da conta de armazenamento | MyStorageAccount | Escolha um identificador de conta exclusivo. Para nomes válidos, confira Regras de nomenclatura |
Location | Oeste dos EUA 2 | Use a mesma localização que a da sua conta do Genomics para reduzir encargos de saída e a latência. |
Desempenho | Standard | O padrão é standard. Para obter mais detalhes sobre as contas de armazenamento standard e premium, confira Introdução ao Armazenamento do Microsoft Azure |
Tipo de conta | BlobStorage | O armazenamento de blob pode ser de duas a cinco vezes mais rápido para downloads e uploads que o uso geral. |
Replicação | Armazenamento com redundância local | O armazenamento com redundância local replica seus dados dentro do datacenter da região em que você criou sua conta de armazenamento. Para obter mais informações, consulte Replicação do Armazenamento do Azure |
Camada de acesso | Frequente | Uma camada de acesso indica que os objetos na conta de armazenamento serão acessados com mais frequência. |
Em seguida, selecione Examinar + criar para criar a conta de armazenamento. Assim como você fez com a criação de sua conta do Genomics, você pode clicar em Notificações na barra de menus superior para monitorar o processo de implantação.
Carregue os dados de entrada na sua conta de armazenamento
O serviço do Microsoft Genomics espera leituras finais emparelhadas (arquivos fastq ou bam) como arquivos de entrada. É possível optar por carregar seus próprios dados ou explorar usando dados de exemplo disponíveis publicamente e fornecidos para você.
Em sua conta de armazenamento, você precisa criar um contêiner de blob para seus dados de entrada e um segundo contêiner de blob para os dados de saída. Carregue os dados de entrada em seu contêiner de blob de entrada. Várias ferramentas podem ser usadas para fazer isso, incluindo Gerenciador de Armazenamento do Microsoft Azure, BlobPorter ou AzCopy.
Execute um fluxo de trabalho por meio do serviço do Microsoft Genomics usando o cliente do Python msgen
Para executar um fluxo de trabalho por meio do serviço do Microsoft Genomics, edite o arquivo config.txt para especificar o contêiner de armazenamento de entrada e saída para seus dados. Abra o arquivo config.txt que você baixou da sua conta do Genomics. As seções que precisam ser especificadas são sua chave de assinatura e seis itens na parte inferior, o nome da conta de armazenamento e o nome da chave e do contêiner para a entrada e saída. É possível encontrar essas informações navegando no portal do Azure até Chaves de acesso da sua conta de armazenamento ou diretamente no Gerenciador de Armazenamento do Azure.
Caso deseje executar o GATK4, defina o parâmetro process_name
como gatk4
.
Por padrão, o serviço Genomics gera arquivos VCF. Caso deseje obter uma saída gVCF em vez de uma saída VCF (equivalente a -emitRefConfidence
no GATK 3.x e emit-ref-confidence
no GATK 4.x), adicione o parâmetro emit_ref_confidence
ao config.txt e defina-o como gvcf
, conforme mostrado na figura anterior. Para alterá-la novamente para a saída VCF, remova-a do arquivo config.txt ou defina o parâmetro emit_ref_confidence
como none
.
O bgzip
é uma ferramenta que compacta o arquivo vcf ou gvcf, e o tabix
cria um índice para o arquivo compactado. Por padrão, o serviço Genomics executa bgzip
seguido por tabix
na saída ".g.vcf", mas não executa essas ferramentas por padrão na saída ".vcf". Quando executado, o serviço produz os arquivos ".gz" (saída do bgzi) e ".tbi" (saída do tabix). O argumento é um booliano, que é definido como false por padrão na saída ".vcf" e como true por padrão na saída ".g.vcf". Para usar na linha de comando, especifique -bz
ou --bgzip-output
como true
(execute o bgzip e o tabix) ou false
. Para usar esse argumento no arquivo config.txt, adicione bgzip_output: true
ou bgzip_output: false
ao arquivo.
Envie o seu fluxo de trabalho por meio do serviço do Microsoft Genomics usando o cliente do Python msgen
Use o cliente Microsoft Genomics Python para enviar seu fluxo de trabalho com o seguinte comando:
msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]
É possível exibir o status do trabalho usando o seguinte comando:
msgen list -f c:\temp\config.txt
Assim que o fluxo de trabalho for concluído, será possível exibir os arquivos de saída em sua conta de Armazenamento do Azure no contêiner de saída que você configurou.
Próximas etapas
Neste artigo, você carregou os dados de entrada de exemplo no armazenamento do Azure e enviou um fluxo de trabalho para o serviço do Microsoft Genomics por meio do cliente Python msgen
. Para saber mais sobre outros tipos de arquivo de entrada que podem ser usados com o serviço do Microsoft Genomics, confira as páginas a seguir: FASTQ emparelhado | BAM | Vários FASTQ ou BAM.