Formato XML no Data Factory no Microsoft Fabric

Este artigo descreve como configurar o formato XML no pipeline de dados do Data Factory no Microsoft Fabric.

Funcionalidades com suporte

O formato XML tem suporte para as seguintes atividades e conectores como origem.

Categoria Conector/Atividade
Conector compatível Amazon S3
Amazon S3 Compatible
Armazenamento de Blobs do Azure
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Arquivos do Azure
Sistema de arquivos
FTP
Google Cloud Storage
HTTP
Arquivos do Lakehouse
Oracle Cloud Storage
SFTP
Atividade com suporte atividade Copy (fonte/-)
Atividade de pesquisa
Atividade GetMetadata
Excluir atividade

Formato XML na atividade de cópia

Para configurar o formato XML, escolha sua conexão na origem da atividade de cópia do pipeline de dados e selecione XML na lista suspensa de formato de arquivo. Selecione Configurações para configuração adicional desse formato.

Captura de tela mostrando as configurações de formato de arquivo.

XML como origem

Depois de selecionar Configurações na seção Formato de arquivo, as seguintes propriedades são mostradas na caixa de diálogo pop-up Configurações de formato de arquivo.

Captura de tela mostrando a seleção do formato de arquivo.

  • Tipo de compactação: o codec de compactação usado para ler arquivos XML. Você pode escolher entre os tipos nenhum, bzip2, gzip, deflate, ZipDeflate, TarGZip ou tar na lista suspensa.

    Se você selecionar ZipDeflate como tipo de compactação, Preservar o nome do arquivo zip como pasta aparecerá em Configurações avançadas na guia Origem.

    • Preservar o nome do arquivo zip como pasta: indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pasta durante a cópia.
      • Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em <specified file path>/<folder named as source zip file>/.
      • Se essa caixa estiver desmarcada, o serviço gravará arquivos descompactados diretamente em <specified file path>. Verifique se não há nomes de arquivo duplicados nos arquivos zip de origem diferentes para evitar a corrida ou comportamento inesperado.

    Se você selecionar TarGZip/tar como o tipo de compactação, Preservar o nome do arquivo de compactação como pasta será exibido nas configurações Avançadas na guia Origem.

    • Preservar o nome do arquivo compactado como pasta: indica se o nome do arquivo compactado de origem deve ser preservado como estrutura de pasta durante a cópia.
      • Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em <specified file path>/<folder named as source compressed file>/.
      • Se essa caixa estiver desmarcada, o serviço gravará arquivos descompactados diretamente em <specified file path>. Verifique se não há nomes de arquivo duplicados nos arquivos de origem diferentes para evitar a corrida ou comportamento inesperado.
  • Nível de compactação: especifique a taxa de compactação ao selecionar um tipo de compactação. Você pode escolher entre Mais Rápido ou Ideal.

    • Mais rápida: a operação de compactação deve ser concluída o mais rápido possível, mesmo se o arquivo resultante não for compactado da maneira ideal.
    • Ideal: a operação de compactação deve ser concluída da maneira ideal, mesmo se a operação demorar mais tempo para ser concluída. Para saber mais, veja o tópico Nível de compactação .
  • Codificação: o tipo de codificação usado para gravar arquivos de teste. Selecione um tipo na lista suspensa. O valor padrão é UTF-8.

  • Valor nulo: Especifica a representação em cadeia do valor nulo. O valor padrão pode ser uma cadeia de caracteres vazia.

Nas configurações Avançadas na guia Origem, as seguintes propriedades relacionadas ao formato XML são exibidas.

  • Modo de validação: especifica se o esquema XML deve ser validado. Selecione um modo na lista suspensa.

    • Nenhum: selecione isso para não usar o modo de validação.
    • xsd: selecione isso para validar o esquema XML usando XSD.
    • dtd: selecione isso para validar o esquema XML usando DTD.

    Captura de tela mostrando os modos de validação.

  • Namespaces: especifique se o namespace deve ser habilitado ao analisar os arquivos XML. Ele é selecionado por padrão.

  • Pares de prefixo de namespace: se os Namespaces estiverem habilitados, selecione + Novo e especifique a URL e o Prefixo. Você pode adicionar mais pares selecionando + Novo.
    O URI do namespace para mapeamento de prefixo é usado para nomear campos ao analisar o arquivo XML. Se um arquivo XML tiver namespace e o namespace estiver habilitado, por padrão, o nome do campo será o mesmo que no documento XML. Se houver um item definido para o URI do namespace neste mapa, o nome do campo será prefix:fieldName.

    Captura de tela mostrando pares de prefixos de namespace.

  • Detectar tipo de dados: especifique se os tipos de dados inteiro, duplo e booliano devem ser detectados. Ele é selecionado por padrão.

Resumo da tabela

XML como origem

As propriedades a seguir têm suporte na seção Origem da atividade de cópia ao usar o formato XML.

Nome Descrição Valor Obrigatório Propriedade de script JSON
Formato de arquivo O formato de arquivo que você deseja usar. XML Sim tipo (em datasetSettings):
Xml
Tipo de compactação O codec de compactação usado para ler arquivos XML. Nenhum
bzip2
gzip
deflate
ZipDeflate
TarGZip
tar
Não tipo (em compression):

bzip2
gzip
deflate
ZipDeflate
TarGZip
tar
Nível de compactação  A taxa de compactação. Fastest
Ideal 
Nenhum nível (em compression):
Fastest
Ideal
Codificação O tipo de codificação usado para ler arquivos de teste. "UTF-8" (por padrão),"UTF-8 sem BOM", "UTF-16LE", "UTF-16BE", "UTF-32LE", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nenhum encodingName
Preservar o nome do arquivo zip como pasta Indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pastas durante a cópia. Selecionado (padrão) ou não selecionado. Não preserveZipFileNameAsFolder
(em compressionProperties->type como ZipDeflateReadSettings):
true (padrão) ou false
Preservar o nome do arquivo de compactação como pasta Indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pastas durante a cópia. Selecionado (padrão) ou não selecionado. Não preserveCompressionFileNameAsFolder
(em compressionProperties->type como TarGZipReadSettings ou TarReadSettings):
true (padrão) ou false
Valor nulo A representação em cadeia de caracteres do valor nulo. <seu valor nulo>
cadeia de caracteres vazia (por padrão)
Nenhum nullValue
Modo de validação Se o esquema XML deve ser validado. Nenhum
xsd
dtd
Não validationMode:

xsd
dtd
Namespaces Se é para habilitar o namespace ao analisar os arquivos XML. Selecionado (padrão) ou não selecionado Não namespaces:
true (padrão) ou false
Pares de prefixo de namespace URI do namespace para mapeamento de prefixo, que é usada para nomear campos ao analisar o arquivo XML.
Se um arquivo XML tiver namespace e o namespace estiver habilitado, por padrão, o nome do campo será o mesmo que no documento XML.
Se houver um item definido para o URI do namespace neste mapa, o nome do campo será prefix:fieldName.
< url >:< prefixo > Não namespacePrefixes:
< url >:< prefixo >
Detectar tipo de dados Se os tipos de dados inteiro, duplo e booliano devem ser detectados. Selecionado (padrão) ou não selecionado Não detectDataType:
true (padrão) ou false