Itens parcialmente indexados na Pesquisa de Conteúdo

Dica

A Deteção de Dados Eletrónicos (pré-visualização) está agora disponível no novo portal do Microsoft Purview. Para saber mais sobre como utilizar a nova experiência de Deteção de Dados Eletrónicos, veja Saiba mais sobre a Deteção de Dados Eletrónicos (pré-visualização).

Uma pesquisa de Conteúdo que executa a partir do portal de conformidade do Microsoft Purview inclui automaticamente itens parcialmente indexados nos resultados estimados da pesquisa quando executa uma pesquisa. Os itens parcialmente indexados são itens de caixa de correio do Exchange e documentos em sites do SharePoint e do OneDrive para Empresas que, por algum motivo, não foram completamente indexados para pesquisa. No Exchange, um item parcialmente indexado normalmente contém um ficheiro (de um tipo de ficheiro que não pode ser indexado) anexado a uma mensagem de e-mail. Seguem-se outros motivos pelos quais os itens não podem ser indexados para pesquisa e são devolvidos como itens parcialmente indexados quando executa uma pesquisa de Deteção de Dados Eletrónicos:

  • O tipo de arquivo não é reconhecido ou não tem suporte para indexação.
  • As mensagens têm um ficheiro anexado que não pode ser aberto; esta é a causa mais comum de itens de e-mail parcialmente indexados.
  • O tipo de arquivo é compatível com a indexação, mas ocorreu um erro de indexação com um arquivo específico.
  • Muitos arquivos anexados a uma mensagem de email.
  • Um arquivo anexado a uma mensagem de email é muito grande.
  • Um arquivo foi criptografado com tecnologias que não são da Microsoft.
  • Um arquivo está protegido por senha.

Observação

A maioria das organizações tem menos de 1% de conteúdo por volume e menos de 12% por tamanho que está parcialmente indexado. O motivo para a diferença entre o volume e o tamanho é que os ficheiros maiores têm uma maior probabilidade de conter conteúdo que não pode ser completamente indexado.

Para investigações legais, a sua organização pode ser obrigada a rever itens parcialmente indexados. Também pode especificar se pretende incluir itens parcialmente indexados quando exporta os resultados da pesquisa para um computador local ou quando prepara os resultados para análise com a Deteção de Dados Eletrónicos (Premium). Para obter mais informações, veja Investigar itens parcialmente indexados na Deteção de Dados Eletrónicos.

Dica

Se você não é um cliente E5, use a avaliação das soluções do Microsoft Purview de 90 dias para explorar como os recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de testes do portal de conformidade do Microsoft Purview. Saiba mais detalhes sobre os termos de inscrição e avaliação.

Determinados tipos de ficheiros, como o Mapa de Bits (.bmp) ou ficheiros MP3 (.mp3), não contêm conteúdo que possa ser indexado. Como resultado, os servidores de indexação de pesquisa no Exchange e no SharePoint não efetuam a indexação de texto completo nestes tipos de ficheiros. Estes tipos de arquivo são considerados como tipos de arquivo incompatíveis. Também existem tipos de arquivo para os quais a indexação de texto completo foi desabilitada, por padrão ou por um administrador. Os tipos de ficheiro não suportados e desativados são identificados como itens não identificados nas Pesquisas de Conteúdo. Conforme indicado anteriormente, os itens parcialmente indexados podem ser incluídos no conjunto de resultados da pesquisa quando executa uma pesquisa, exporta os resultados da pesquisa para um computador local ou prepara os resultados da pesquisa para a Deteção de Dados Eletrónicos (Premium).

Para obter uma lista de formatos de ficheiro suportados e desativados, consulte os seguintes artigos:

As mensagens e documentos com tipos de ficheiro parcialmente indexados podem ser devolvidos nos resultados da pesquisa

Nem todas as mensagens de e-mail com um anexo de ficheiro parcialmente indexado ou todos os documentos do SharePoint parcialmente indexados são devolvidos automaticamente como um item parcialmente indexado. Tal deve-se ao facto de outras propriedades de mensagem ou documento, como a propriedade Assunto nas mensagens de e-mail e as propriedades Título ou Autor dos documentos estarem indexadas e disponíveis para pesquisa. Por exemplo, uma pesquisa de palavras-chave para "financeira" devolverá itens com um anexo de ficheiro parcialmente indexado se essa palavra-chave aparecer no assunto de uma mensagem de e-mail ou no nome de ficheiro ou título de um documento. No entanto, se a palavra-chave aparecer apenas no corpo do ficheiro, a mensagem ou documento será devolvido como um item parcialmente indexado.

Da mesma forma, as mensagens com anexos de ficheiro parcialmente indexados e documentos de um tipo de ficheiro parcialmente indexado são incluídas nos resultados da pesquisa quando outras propriedades de documento ou mensagem, indexadas e pesquisáveis, correspondem aos critérios de pesquisa. Propriedades de mensagem indexadas para pesquisa incluem datas enviadas e recebidas, remetente e destinatário, o nome do arquivo de um anexo e o texto no corpo da mensagem. Propriedades do documento indexadas para pesquisa incluem datas criadas e modificadas. Assim, embora um anexo de mensagem possa ser um item parcialmente indexado, a mensagem será incluída nos resultados de pesquisa regulares se o valor de outras propriedades de documento ou mensagem corresponder aos critérios de pesquisa.

Para obter uma lista das propriedades de e-mail e documento que pode procurar com as ferramentas de Deteção de Dados Eletrónicos no portal de conformidade, veja Consultas de palavras-chave e condições de pesquisa para Deteção de Dados Eletrónicos.

Observação

Se um item de caixa de correio for movido de uma pasta indexada para uma pasta que não está indexada, um sinalizador é definido para desindexar o item e o item é removido do índice e não será pesquisável. Mais tarde, se esse mesmo item for movido novamente para uma pasta indexada, o sinalizador não será reposto. Isto significa que o item permanecerá nãondexado e não pesquisável.

Itens parcialmente indexados incluídos nos resultados da pesquisa

A sua organização poderá ter de identificar e efetuar análises adicionais em itens parcialmente indexados para determinar o que são, o que contêm e se são relevantes para uma investigação específica. Conforme explicado anteriormente, os itens parcialmente indexados nas localizações de conteúdo que são pesquisados são automaticamente incluídos nos resultados estimados da pesquisa. Tem a opção de incluir estes itens parcialmente indexados ao exportar os resultados da pesquisa ou preparar os resultados da pesquisa para Deteção de Dados Eletrónicos (Premium).

Tenha em atenção o seguinte sobre os itens parcialmente indexados:

  • Quando executa uma pesquisa de Deteção de Dados Eletrónicos, o número total e o tamanho dos itens do Exchange parcialmente indexados (devolvidos pela consulta de pesquisa) são apresentados nas estatísticas de pesquisa na página de lista de opções e etiquetados como itens não indexados. As estatísticas sobre itens parcialmente indexados apresentados na página de lista de opções não incluem itens parcialmente indexados em sites do SharePoint ou contas do OneDrive.

  • Se a pesquisa a partir da qual está a exportar resultados tiver sido uma pesquisa de localizações de conteúdo específicas ou de todas as localizações de conteúdo na sua organização, apenas os itens não identificados de localizações de conteúdo que contenham itens que correspondam aos critérios de pesquisa serão exportados. In other words, if no search results are found in a mailbox or site, then any unindexed items in that mailbox or site won't be exported. Isto deve-se ao facto de a exportação de itens parcialmente indexados a partir de muitas localizações na organização poder aumentar a probabilidade de erros de exportação e aumentar o tempo necessário para exportar e transferir os resultados da pesquisa.

    Para exportar itens parcialmente indexados de todas as localizações de conteúdo para uma pesquisa, configure a pesquisa para devolver todos os itens (removendo quaisquer palavras-chave da consulta de pesquisa) e, em seguida, exporte apenas itens parcialmente indexados quando exportar os resultados da pesquisa (ao selecionar Apenas os itens que têm um formato não reconhecido, são encriptados ou não foram indexados por outros motivos em Opções de saída).

  • Se optar por incluir todos os itens da caixa de correio nos resultados da pesquisa ou se uma consulta de pesquisa não especificar palavras-chave ou apenas especificar um intervalo de datas, os itens parcialmente indexados poderão não ser copiados para o ficheiro PST que contém os itens parcialmente indexados. Isto acontece porque todos os itens, incluindo quaisquer itens parcialmente indexados, serão automaticamente incluídos nos resultados de pesquisa regulares.

  • Os itens parcialmente indexados não estão disponíveis para pré-visualização. Tem de exportar os resultados da pesquisa para ver os itens parcialmente indexados devolvidos pela pesquisa.

    Além disso, quando exporta os resultados da pesquisa e inclui itens parcialmente indexados na exportação, os itens parcialmente indexados dos itens do SharePoint são exportados para uma pasta denominada Incrawlable. Quando exporta itens do Exchange parcialmente indexados, estes são exportados de forma diferente consoante os itens parcialmente indexados correspondam à consulta de pesquisa e à configuração das definições de exportação.

  • A tabela seguinte mostra o comportamento de exportação de itens indexados e parcialmente indexados e se cada um está ou não incluído para as diferentes definições de configuração de exportação.

    Exportar configuração Itens indexados que correspondem à consulta de pesquisa Itens parcialmente indexados que correspondem à consulta de pesquisa Itens parcialmente indexados que não correspondem à consulta de pesquisa
    Exportar somente itens indexados
    Exported
    Exportado (incluído com os itens indexados exportados)
    Não exportado
    Exportar apenas itens parcialmente indexados
    Não exportado
    Exportado (como itens parcialmente indexados)
    Exportado (como itens parcialmente indexados)
    Exportar itens indexados e parcialmente indexados
    Exported
    Exportado (incluído com os itens indexados exportados)
    Exportado (como itens parcialmente indexados)

Intervalos de datas e exclusão de itens parcialmente indexados

Em Pesquisa de conteúdos e Deteção de Dados Eletrónicos do Microsoft Purview, não pode utilizar um intervalo de datas para excluir itens parcialmente indexados de serem devolvidos por uma consulta de pesquisa. Por outras palavras, os itens parcialmente indexados que estão fora de um intervalo de datas ainda são incluídos como itens parcialmente indexados nas estatísticas de pesquisa e quando exporta itens parcialmente indexados. Na Deteção de Dados Eletrónicos (Premium), os itens parcialmente indexados podem ser recolhidos e, em seguida, filtrados num conjunto de revisão antes da exportação.

Limites de indexação para mensagens

A tabela seguinte descreve os limites de indexação que podem resultar na devolução de uma mensagem de e-mail como um item parcialmente indexado numa pesquisa de Deteção de Dados Eletrónicos no Microsoft 365.

Para obter uma lista de limites de indexação para documentos do SharePoint, veja Limites de pesquisa do SharePoint Online.

Limite de indexação Observações Descrição
Tamanho máximo do anexo (excluindo ficheiros do Excel)
150 MB
O tamanho máximo de um anexo de e-mail que irá analisar a indexação. Qualquer anexo que seja superior a este limite não será analisado para indexação e a mensagem com o anexo será marcada como parcialmente indexada.

Nota: A análise é o processo em que o serviço de indexação extrai texto do anexo, remove carateres desnecessários, como pontuação e espaços, e, em seguida, divide o texto em palavras (num processo chamado tokenização), que são depois armazenadas no índice.
Tamanho máximo dos ficheiros do Excel
4 MB
O tamanho máximo de um ficheiro do Excel localizado num site ou anexado a uma mensagem de e-mail que será analisada para indexação. Qualquer ficheiro do Excel que seja superior a este limite não será analisado e o ficheiro ou o e-mail da mensagem com o anexo do ficheiro serão marcados como não identificados.
Número máximo de anexos
250
O número máximo de ficheiros anexados a uma mensagem de e-mail que será analisado para indexação. Se uma mensagem tiver mais de 250 anexos, os primeiros 250 anexos são analisados e indexados e a mensagem é marcada como parcialmente indexada porque tinha anexos adicionais que não foram analisados.
Profundidade máxima do anexo
30
O número máximo de anexos aninhados analisados. Por exemplo, se uma mensagem de e-mail tiver outra mensagem anexada à mesma e a mensagem anexada tiver um documento do Word anexado, o documento do Word e a mensagem anexada serão indexados. Este comportamento continuará até 30 anexos aninhados.
Número máximo de imagens anexadas
0
Uma imagem anexada a uma mensagem de e-mail é ignorada pelo analisador e não é indexada.
Tempo máximo despendido a analisar um item
30 segundos
É despendido um máximo de 30 segundos a analisar um item para indexação. Se o tempo de análise exceder os 30 segundos, o item será marcado como parcialmente indexado.
Saída máxima do analisador
2 milhões de caracteres
A quantidade máxima de saída de texto do analisador indexado. Por exemplo, se o analisador tiver extraído 8 milhões de carateres de um documento, apenas os primeiros 2 milhões de carateres serão indexados.
Tokens de anotação máximos
Dois milhões
Quando uma mensagem de e-mail é indexada, cada palavra é anotada com instruções de processamento diferentes que especificam como essa palavra deve ser indexada. Cada conjunto de instruções de processamento é denominado token de anotação. Para manter a qualidade do serviço no Office 365, existe um limite de 2 milhões de tokens de anotação para uma mensagem de e-mail.
Tamanho máximo do corpo no índice
67 milhões de carateres
O número total de carateres no corpo de uma mensagem de e-mail e todos os respetivos anexos. Quando uma mensagem de e-mail é indexada, todo o texto no corpo da mensagem e em todos os anexos é concatenado numa única cadeia. O tamanho máximo desta cadeia indexada é de 67 milhões de carateres.
Máximo de tokens exclusivos no corpo
1 milhão
Conforme explicado anteriormente, os tokens são o resultado da extração de texto do conteúdo, da remoção da pontuação e dos espaços e, em seguida, da divisão em palavras (denominadas tokens) armazenadas no índice. Por exemplo, a expressão "cat, mouse, bird, dog, dog" contém 5 tokens. No entanto, apenas 4 destes tokens são exclusivos. Existe um limite de 1 milhão de tokens exclusivos por mensagem de e-mail, o que ajuda a impedir que o índice seja demasiado grande com tokens aleatórios.

Mais informações sobre itens parcialmente indexados

  • Conforme indicado anteriormente, uma vez que as propriedades da mensagem e do documento e os respetivos metadados estão indexados, uma pesquisa de palavras-chave poderá devolver resultados se essa palavra-chave aparecer nos metadados indexados. No entanto, essa mesma pesquisa de palavra-chave poderá não retornar o mesmo item se a palavra-chave só aparece no conteúdo de um item com um tipo de arquivo sem suporte. Neste caso, o item seria devolvido como um item parcialmente indexado.
  • Se um item parcialmente indexado for incluído nos resultados da pesquisa porque correspondeu aos critérios da consulta de pesquisa, não será incluído com itens parcialmente indexados ao exportar os resultados da pesquisa.
  • Embora um tipo de ficheiro seja suportado para indexação e indexado, pode haver erros de indexação ou pesquisa que farão com que um ficheiro seja devolvido como um item parcialmente indexado. Por exemplo, procurar um ficheiro grande do Excel pode ser parcialmente bem-sucedido (porque os primeiros 4 MB estão indexados), mas depois falha porque o limite de tamanho do ficheiro foi excedido. Neste caso, é possível que o mesmo ficheiro seja devolvido com os resultados da pesquisa e como um item parcialmente indexado.
  • Os ficheiros encriptados com tecnologias de encriptação da Microsoft e anexados a uma mensagem de e-mail que corresponda aos critérios de uma pesquisa podem ser pré-visualizados e serão desencriptados quando exportados. Neste momento, os ficheiros encriptados com tecnologias de encriptação da Microsoft (e armazenados no SharePoint ou no OneDrive para Empresas) são parcialmente indexados.
  • As mensagens de e-mail encriptadas com S/MIME são parcialmente indexadas. Isso inclui mensagens criptografadas com ou sem anexos de arquivo.
  • As mensagens de e-mail protegidas com o Azure Rights Management são indexadas e serão incluídas nos resultados da pesquisa se corresponderem à consulta de pesquisa. As mensagens de e-mail protegidas por direitos são desencriptadas e podem ser pré-visualizadas e exportadas. Esta funcionalidade requer que lhe seja atribuída a função Desencriptar do RMS, atribuída por predefinição ao grupo de funções Gestor de Deteção de Dados Eletrónicos.
  • Se criar uma suspensão baseada em consultas associada a um caso de Deteção de Dados Eletrónicos, todos os itens parcialmente indexados são colocados em suspensão. Isto inclui itens parcialmente indexados que não correspondem aos critérios de consulta de pesquisa da suspensão. Para obter mais informações sobre como criar suspensões de Deteção de Dados Eletrónicos baseadas em consultas, veja Criar uma suspensão de Deteção de Dados Eletrónicos.