Copiar dados da tabela da Web usando o Azure Data Factory ou o Synapse Analytics
APLICA-SE A: Azure Data Factory Azure Synapse Analytics
Gorjeta
Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!
Este artigo descreve como usar a Atividade de Cópia em um pipeline do Azure Data Factory ou do Synapse Analytics para copiar dados de um banco de dados de tabela da Web. Ele se baseia no artigo de visão geral da atividade de cópia que apresenta uma visão geral da atividade de cópia.
A diferença entre este conector de tabela da Web, o conector REST e o conector HTTP são:
- O conector da tabela Web extrai o conteúdo da tabela de uma página Web HTML.
- O conector REST suporta especificamente a cópia de dados de APIs RESTful.
- O conector HTTP é genérico para recuperar dados de qualquer ponto de extremidade HTTP, por exemplo, para baixar arquivos.
Capacidades suportadas
Este conector de tabela da Web é suportado para os seguintes recursos:
Capacidades suportadas | IR |
---|---|
Atividade de cópia (fonte/-) | (2) |
Atividade de Pesquisa | (2) |
(1) Tempo de execução de integração do Azure (2) Tempo de execução de integração auto-hospedado
Para obter uma lista de armazenamentos de dados suportados como fontes/coletores, consulte a tabela Armazenamentos de dados suportados.
Especificamente, esse conector de tabela da Web oferece suporte à extração de conteúdo de tabela de uma página HTML.
Pré-requisitos
Para usar esse conector de tabela da Web, você precisa configurar um Self-hosted Integration Runtime. Consulte o artigo Self-hosted Integration Runtime para obter detalhes.
Introdução
Para executar a atividade Copiar com um pipeline, você pode usar uma das seguintes ferramentas ou SDKs:
- A ferramenta Copiar dados
- O portal do Azure
- O SDK do .NET
- O SDK do Python
- Azure PowerShell
- A API REST
- O modelo do Azure Resource Manager
Criar um serviço vinculado à tabela da Web usando a interface do usuário
Use as etapas a seguir para criar um serviço vinculado à Tabela da Web na interface do usuário do portal do Azure.
Navegue até a guia Gerenciar em seu espaço de trabalho do Azure Data Factory ou Synapse e selecione Serviços Vinculados e clique em Novo:
Procure Web e selecione o conector Web Table.
Configure os detalhes do serviço, teste a conexão e crie o novo serviço vinculado.
Detalhes de configuração do conector
As seções a seguir fornecem detalhes sobre as propriedades usadas para definir entidades do Data Factory específicas para o conector de tabela da Web.
Propriedades do serviço vinculado
As seguintes propriedades são suportadas para o serviço vinculado de tabela da Web:
Property | Descrição | Obrigatório |
---|---|---|
tipo | A propriedade type deve ser definida como: Web | Sim |
url | URL para a fonte da Web | Sim |
authenticationType | O valor permitido é: Anônimo. | Sim |
ConecteVia | O tempo de execução de integração a ser usado para se conectar ao armazenamento de dados. Um tempo de execução de integração auto-hospedado é necessário, conforme mencionado em Pré-requisitos. | Sim |
Exemplo:
{
"name": "WebLinkedService",
"properties": {
"type": "Web",
"typeProperties": {
"url" : "https://en.wikipedia.org/wiki/",
"authenticationType": "Anonymous"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Propriedades do conjunto de dados
Para obter uma lista completa de seções e propriedades disponíveis para definir conjuntos de dados, consulte o artigo sobre conjuntos de dados. Esta seção fornece uma lista de propriedades suportadas pelo conjunto de dados de tabela da Web.
Para copiar dados da tabela da Web, defina a propriedade type do conjunto de dados como WebTable. As seguintes propriedades são suportadas:
Property | Descrição | Obrigatório |
---|---|---|
tipo | A propriedade type do conjunto de dados deve ser definida como: WebTable | Sim |
path | Uma URL relativa ao recurso que contém a tabela. | N.º Quando o caminho não é especificado, somente a URL especificada na definição de serviço vinculado é usada. |
index | O índice da tabela no recurso. Consulte Obter índice de uma tabela em uma seção de página HTML para obter as etapas para obter o índice de uma tabela em uma página HTML. | Sim |
Exemplo:
{
"name": "WebTableInput",
"properties": {
"type": "WebTable",
"typeProperties": {
"index": 1,
"path": "AFI's_100_Years...100_Movies"
},
"schema": [],
"linkedServiceName": {
"referenceName": "<Web linked service name>",
"type": "LinkedServiceReference"
}
}
}
Propriedades da atividade Copy
Para obter uma lista completa de seções e propriedades disponíveis para definir atividades, consulte o artigo Pipelines . Esta seção fornece uma lista de propriedades suportadas pela fonte da tabela da Web.
Tabela da Web como fonte
Para copiar dados da tabela da Web, defina o tipo de fonte na atividade de cópia como WebSource, nenhuma propriedade adicional é suportada.
Exemplo:
"activities":[
{
"name": "CopyFromWebTable",
"type": "Copy",
"inputs": [
{
"referenceName": "<Web table input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "WebSource"
},
"sink": {
"type": "<sink type>"
}
}
}
]
Obter índice de uma tabela em uma página HTML
Para obter o índice de uma tabela que você precisa configurar nas propriedades do conjunto de dados, você pode usar, por exemplo, o Excel 2016 como a ferramenta da seguinte maneira:
Inicie o Excel 2016 e alterne para a guia Dados .
Clique em Nova Consulta na barra de ferramentas, aponte para De Outras Fontes e clique em Da Web.
Na caixa de diálogo Da Web, digite a URL que você usaria no JSON do serviço vinculado (por exemplo: https://en.wikipedia.org/wiki/) junto com o caminho especificado para o conjunto de dados (por exemplo: AFI%27s_100_Years... 100_Movies) e clique em OK.
URL usado neste exemplo: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies
Se vir a caixa de diálogo Aceder a conteúdo Web, selecione o URL correto, autenticação e clique em Ligar.
Clique num item de tabela na vista de árvore para ver o conteúdo da tabela e, em seguida, clique no botão Editar na parte inferior.
Na janela Editor de Consultas, clique no botão Editor Avançado na barra de ferramentas.
Na caixa de diálogo Editor Avançado, o número ao lado de "Fonte" é o índice.
Se estiver a utilizar o Excel 2013, utilize o Microsoft Power Query para Excel para obter o índice. Consulte o artigo Conectar-se a uma página da Web para obter detalhes. As etapas são semelhantes se você estiver usando o Microsoft Power BI para Área de Trabalho.
Propriedades da atividade de pesquisa
Para saber detalhes sobre as propriedades, verifique Atividade de pesquisa.
Conteúdos relacionados
Para obter uma lista de armazenamentos de dados suportados como fontes e coletores pela atividade de cópia, consulte Armazenamentos de dados suportados.