Monitorar atividade de cópia

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

Este artigo descreve como monitorar a execução da atividade de cópia em pipelines do Azure Data Factory e do Synapse. Ele amplia o artigo Visão geral da atividade de cópia que apresenta uma visão geral da atividade de cópia. Você também pode monitorar as atividades de cópia geradas com a ferramenta Copiar Dados, bem como Excluir atividades usando a mesma abordagem.

Monitorar visualmente

Depois de criar e publicar um pipeline, você pode associá-lo a um gatilho ou iniciar manualmente uma execução ad hoc. Você pode monitorar todas as execuções de pipeline nativamente na experiência do usuário. Saiba mais sobre o monitoramento em geral por meio do Monitoramento visual de pipelines do Azure Data Factory e do Synapse.

Para monitorar a execução de atividade Copy, vá até a interface do usuário do Data Factory Studio ou do Azure Synapse Studio para sua instância de serviço. Na guia Monitor, você vê uma lista de execuções de pipeline, clique no link do nome do pipeline para acessar a lista de execuções de atividade na execução do pipeline.

Nesse nível, você pode ver os links para entrada de atividade de cópia, saída e erros (se a execução da atividade Copy falhar), bem como estatísticas como duração/status. Clicar no botão Informações (óculos) ao lado do nome da atividade de cópia fornecerá as informações detalhadas sobre a execução da atividade de cópia.

Monitor copy activity run

Nesta visão gráfica de monitoramento, o serviço apresenta as informações de execução da atividade Copy, incluindo o volume de leitura/gravação de dados, o número de arquivos/linhas de dados copiados do provedor de origem para o coletor, a taxa de transferência, as configurações aplicadas ao seu cenário de cópia, as etapas que a atividade Copy desempenha com as durações e os detalhes correspondentes e muito mais. Veja esta tabela em cada métrica possível e sua descrição detalhada.

Em alguns cenários, ao executar uma atividade Copy, você verá "Dicas de ajuste de desempenho" na parte superior da exibição de monitoramento da atividade Copy, conforme mostrado no exemplo. As dicas informam o gargalo identificado pelo serviço para a execução de cópia específica, juntamente com a sugestão sobre o que mudar para impulsionar a taxa de transferência da cópia. Saiba mais sobre asdicas de ajuste de desempenho automático.

Os detalhes e as durações da execução da parte inferior descrevem as chaves principais pelas quais sua atividade de cópia passa, o que é especialmente útil para solucionar problemas de desempenho de cópia. O gargalo de sua execução de cópia é aquele com a duração mais longa. Veja como solucionar problemas do desempenho da atividade de cópia do gargalo sobre o que cada estágio representa e as diretrizes detalhadas para de solução de problemas.

Exemplo:Copiar os arquivos do Amazon S3 para o Azure Data Lake Storage Gen2

Monitor copy activity run details

Monitorar programaticamente

Os detalhes de execução da atividade Copy e as características de desempenho também são retornados na seção saída de resultado da execução da atividade>Copy,que é usada para renderizar a exibição de monitoramento da interface do usuário. A seguir uma lista está completa de propriedades que podem ser retornadas. Você notará apenas as propriedades que são aplicáveis ao seu cenário de cópia. Para obter informações sobre como monitorar as execuções de atividade programaticamente em geral, consulte Monitorar programaticamente pipelines do Azure Data Factory ou do Synapse.

Nome da propriedade Descrição Unidade de saída
dataRead A quantidade atual de leitura de dados da fonte de dados. Valor int 64 em bytes
dataWritten A montagem atual de dados gravados/confirmados no coletor. O tamanho pode ser diferente do dataRead tamanho, pois ele relaciona a maneira de como cada armazenamento de dados armazena os dados. Valor int 64 em bytes
filesRead O número de leitura de arquivos da fonte baseada em arquivo. Valor Int64 (nenhuma unidade)
filesWritten O número dos arquivos gravados/confirmados no coletor com base em arquivo. Valor Int64 (nenhuma unidade)
filesSkipped O número de arquivos ignorados da fonte com base no arquivo. Valor Int64 (nenhuma unidade)
dataConsistencyVerification Detalhes da verificação de consistência de dados em que você pode ver se os dados copiados foram verificados como consistentes entre o provedor de origem e a fonte de dados de destino. Saiba maisdeste artigo. Array
Horário de Pico Personalizado O número máximo de conexão simultânea estabelecida com o armazenamento de dados durante a execução da atividade Copy. Valor Int64 (nenhuma unidade)
sinkPeakConnections Número máximo de conexão simultânea estabelecida com o armazenamento de dados do coletor durante a execução da atividade Copy. Valor Int64 (nenhuma unidade)
rowsRead Número de leitura de linhas do provedor de origem. Esta métrica não se aplica ao copiar arquivos no estado em que se encontram sem analisá-los, por exemplo, quando os conjuntos de fontes de origem e de coletor são do tipo formato binário ou outro tipo de formato com configurações idênticas. Valor Int64 (nenhuma unidade)
rowsCopied Número de colunas copiadas para o coletor. Esta métrica não se aplica ao copiar arquivos no estado em que se encontram sem analisá-los, por exemplo, quando os conjuntos de fontes de origem e de coletor são do tipo formato binário ou outro tipo de formato com configurações idênticas. Valor Int64 (nenhuma unidade)
rowsSkipped Número de colunas incompatíveis que está sendo ignoradas. Você pode habilitar linhas incompatíveis para serem ignoradas definindo-as enableSkipIncompatibleRow como verdadeiras. Valor Int64 (nenhuma unidade)
copyDuration Duração da execução da cópia. Valor de Int32 em segundos
throughput Taxa de transferência de dados calculada peladataRead divisão por copyDuration. Número de Ponto Flutuante em KBps
Horário de Pico Personalizado O número máximo de conexão simultânea estabelecida com o armazenamento de dados durante a execução da atividade Copy. Valor de int 32 (nenhuma unidade)
Conexões de Pico no coletor Número máximo de conexão simultânea estabelecida com o armazenamento de dados do coletor durante a execução da atividade Copy. Valor de int 32 (nenhuma unidade)
sqlDwPolyBase Se o PolyBase é usado quando os dados são copiados no Azure Synapse Analytics. Boolean
redshiftUnload Se o UNLOAD será usado quando os dados forem copiados do Redshift. Boolean
hdfsDistcp Se o DistCp será usado quando os dados forem copiados do HDFS. Booliano
effectiveIntegrationRuntime O tempo de execução de integração (IR) ou as durações usadas para alimentar a execução de atividade,no formato<IR name> (<region if it's Azure IR>). Texto (cadeia de caracteres)
usedDataIntegrationUnits As unidades de integração de dados efetivas durante a cópia. Valor Int32
usedParallelCopies ParallelCopies efetivos durante a cópia. Valor Int32
logPath Caminho para o registro da sessão de dados ignorados no armazenamento de blob. Consulte aTolerância a falhas. Texto (cadeia de caracteres)
executionDetails Mais detalhes sobre as fases da atividade Copy passam pelas etapas correspondentes, duração, configurações e assim por diante. Não recomendamos a você analisar esta seção porque ela pode ser alterada. Para reconhecer melhor como isso ajuda a reconhecer e solucionar problemas de desempenho de cópia, consulte a seçãomonitorar visualmente. Array
perf Recommendation Dicas de ajuste de desempenho da cópia. Consulte as dicas de ajuste de desempenho para obter detalhes. Array
billingReference O consumo de faturação para a execução fornecida. Saiba mais emmonitorar o consumo no nível de execução da atividade. Objeto
durationInQueue Duração da fila em segundos antes da atividade de cópia começar a ser executada. Objeto

Exemplo:

"output": {
    "dataRead": 1180089300500,
    "dataWritten": 1180089300500,
    "filesRead": 110,
    "filesWritten": 110,
    "filesSkipped": 0,
    "sourcePeakConnections": 640,
    "sinkPeakConnections": 1024,
    "copyDuration": 388,
    "throughput": 2970183,
    "errors": [],
    "effectiveIntegrationRuntime": "DefaultIntegrationRuntime (East US)",
    "usedDataIntegrationUnits": 128,
    "billingReference": "{\"activityType\":\"DataMovement\",\"billableDuration\":[{\"Managed\":11.733333333333336}]}",
    "usedParallelCopies": 64,
    "dataConsistencyVerification": 
    { 
        "VerificationResult": "Verified", 
        "InconsistentData": "None" 
    },
    "executionDetails": [
        {
            "source": {
                "type": "AmazonS3"
            },
            "sink": {
                "type": "AzureBlobFS",
                "region": "East US",
                "throttlingErrors": 6
            },
            "status": "Succeeded",
            "start": "2020-03-04T02:13:25.1454206Z",
            "duration": 388,
            "usedDataIntegrationUnits": 128,
            "usedParallelCopies": 64,
            "profile": {
                "queue": {
                    "status": "Completed",
                    "duration": 2
                },
                "transfer": {
                    "status": "Completed",
                    "duration": 386,
                    "details": {
                        "listingSource": {
                            "type": "AmazonS3",
                            "workingDuration": 0
                        },
                        "readingFromSource": {
                            "type": "AmazonS3",
                            "workingDuration": 301
                        },
                        "writingToSink": {
                            "type": "AzureBlobFS",
                            "workingDuration": 335
                        }
                    }
                }
            },
            "detailedDurations": {
                "queuingDuration": 2,
                "transferDuration": 386
            }
        }
    ],
    "perfRecommendation": [
        {
            "Tip": "6 write operations were throttled by the sink data store. To achieve better performance, you are suggested to check and increase the allowed request rate for Azure Data Lake Storage Gen2, or reduce the number of concurrent copy runs and other data access, or reduce the DIU or parallel copy.",
            "ReferUrl": "https://go.microsoft.com/fwlink/?linkid=2102534 ",
            "RuleName": "ReduceThrottlingErrorPerfRecommendationRule"
        }
    ],
    "durationInQueue": {
        "integrationRuntimeQueue": 0
    }
}

Consulte os outros artigos sobre atividade de cópia:

- Visão geral da atividade de cópia

- Desempenho da atividade Copy