Skicka ett arbetsflöde med FASTQ-filsindata i Microsoft Genomics

Den här artikeln visar hur du skickar ett arbetsflöde till Microsoft Genomics-tjänsten om dina indatafiler är ett enda par FASTQ-filer. I det här avsnittet förutsätts det att du redan har installerat och kört msgen-klienten och att du vet hur du använder Azure Storage. Om du har skickat ett arbetsflöde med hjälp av angivna exempeldata är du redo att fortsätta med den här artikeln.

Förberedelse: Ladda upp FASTQ-filerna till Azure Storage

Vi antar vi att du har två filer, reads_1.fq.gz och reads_2.fq.gz, och att du har laddat upp dem till ditt lagringskonto myaccount i Azure som https://myaccount.blob.core.windows.net/indata/reads_1. rk.gz och https://myaccount.blob.core.windows.net /indata /reads_2.fq.gz. Du har API-URL och din åtkomstnyckel. Du vill ha utdata i https://myaccount.blob.core.windows.net/outputs.

Skicka jobbet till msgen-klienten

Här är den minsta möjliga uppsättningen argument som du måste ange för msgen-klienten. Radbrytningar har lagts till för tydlighetens skull:

För Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads_1.fq.gz ^
  --input-blob-name-2 reads_2.fq.gz ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

För Unix:

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads_1.fq.gz \
  --input-blob-name-2 reads_2.fq.gz \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Om du föredrar att använda en konfigurationsfil skulle den innehålla följande:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads_1.fq.gz
input_blob_name_2:                reads_2.fq.gz
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Skicka filen config.txt med det här anropet: msgen submit -f config.txt

Nästa steg

I den här artikeln laddade du upp ett par FASTQ-filer till Azure Storage och skickade ett arbetsflöde till Microsoft Genomics-tjänsten via msgen Python-klienten. Mer information om arbetsflödesöverföring och andra kommandon som du kan använda med Microsoft Genomics-tjänsten finns i våra vanliga frågor och svar.