Habilidade de percepção do Text Merge

A habilidade Mesclagem de Texto consolida o texto de uma matriz de cadeias de caracteres em um único campo.

Observação

Essa habilidade não está associada aos serviços de IA do Azure. Ele não é faturável e não tem requisito de chave dos serviços de IA do Azure.

@odata.type

Microsoft.Skills.Text.MergeSkill

Parâmetros de habilidades

Os parâmetros diferenciam maiúsculas de minúsculas.

Nome do parâmetro Descrição
insertPreTag Cadeia de caracteres a serem incluídas antes de cada inserção. O valor padrão é " ". Para omitir o espaço, defina o valor como "".
insertPostTag Cadeia de caracteres a ser incluída antes de cada inserção. O valor padrão é " ". Para omitir o espaço, defina o valor como "".

Entradas de habilidades

Nome de entrada Descrição
itemsToInsert Matriz de cadeias de caracteres a serem mescladas.
text (opcional) Corpo do texto principal a ser inserido. Se text não for fornecido, os elementos de serão itemsToInsert concatenados.
offsets (opcional) Matriz de posições dentro de text onde itemsToInsert devem ser inseridas. Se fornecido, o número de elementos de text deve ser igual ao número de elementos de textToInsert. Caso contrário, todos os itens serão anexados ao final dotext.

Saídas de habilidades

Nome de saída Descrição
mergedText O texto mesclado resultante.
mergedOffsets Matriz de posições dentro demergedText onde os elementos de itemsToInsert foram inseridos

Entrada de exemplo

Um documento JSON fornece entrada utilizável para esta habilidade JSON poderia ser:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Saída de exemplo

Este exemplo mostra a saída da entrada anterior, supondo que o insertPreTag seja definido como " ", e insertPostTag seja definido como "".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Definição do conjunto de habilidades de exemplo estendido

Um cenário comum para o Text Merge é a capacidade de mesclar a representação textual de imagens (texto de uma habilidade OCR ou a legenda de uma imagem) no campo de conteúdo de um documento.

O conjunto de qualificações do exemplo a seguir usa a habilidade de OCR para extrair o texto de imagens inseridas no documento. Em seguida, cria um campo merged_text que contém texto original e OCRed de cada imagem. Saiba mais sobre a habilidade OCR aqui.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

O exemplo acima presume que um campo de imagens normalizado existe. Para gerar esse campo, defina a configuração imageAction na definição do indexador para generateNormalizedImages conforme mostrado abaixo:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

Confira também