OCR para imagens (versão 4.0)

Artigo
09/04/2024

Observação

Se você deseja extrair textos de PDFs, arquivos do Office ou documentos HTML e imagens de documentos, use o modelo de Leitura com OCR da Informação de Documentos. Esse modelo é otimizado para documentos digitais e digitalizados com bastante texto e usa uma API assíncrona que facilita o processamento inteligente de documentos.

O OCR (reconhecimento óptico de caracteres) é uma técnica baseada em aprendizado de máquina para extrair texto de imagens do mundo real e não documentais, como rótulos de produtos, imagens geradas por usuários, capturas de tela, placas de rua e cartazes. O serviço de OCR da Visão de IA do Azure fornece uma API síncrona e rápida para cenários leves onde as imagens não têm muito texto. Isso permite que o OCR seja inserido em experiências de usuário quase em tempo real a fim de enriquecer a compreensão de conteúdo e acompanhar as ações do usuário com tempos rápidos de retorno.

O que é o OCR de Leitura da Visão de IA do Azure v4.0?

A nova API REST de Análise de Imagens da Visão de IA do Azure 4.0 possibilita extrair textos impressos ou manuscritos de imagens em uma API síncrona unificada com aprimoramento de desempenho, que facilita a obtenção de todas as informações da imagem, incluindo resultados de OCR em uma única operação de API. O mecanismo OCR de Leitura da Microsoft é baseada em vários modelos de aprendizado profundo compatíveis com modelos universais baseados em script para suporte a idiomas internacionais.

Dica

Você também pode usar o recurso de OCR em conjunto com o Serviço OpenAI do Azure. O modelo GPT-4 Turbo com Visão permite que você converse com um assistente de IA que pode analisar as imagens que você compartilha e a opção de Aprimoramento de Visão usa a Análise de Imagens para fornecer ao assistente de IA mais detalhes (texto legível e localizações de objetos) sobre a imagem. Para obter mais informações, consulte o Início rápido do GPT-4 Turbo com Visão.

Exemplo de extração de texto

A resposta JSON a seguir ilustra o que a API de Análise de Imagem 4.0 retorna ao extrair texto da imagem fornecida.

Foto de uma nota adesiva com algo escrito.

{
    "modelVersion": "2024-02-01",
    "metadata":
    {
        "width": 1000,
        "height": 945
    },
    "readResult":
    {
        "blocks":
        [
            {
                "lines":
                [
                    {
                        "text": "You must be the change you",
                        "boundingPolygon":
                        [
                            {"x":251,"y":265},
                            {"x":673,"y":260},
                            {"x":674,"y":308},
                            {"x":252,"y":318}
                        ],
                        "words":
                        [
                            {"text":"You","boundingPolygon":[{"x":252,"y":267},{"x":307,"y":265},{"x":307,"y":318},{"x":253,"y":318}],"confidence":0.996},
                            {"text":"must","boundingPolygon":[{"x":318,"y":264},{"x":386,"y":263},{"x":387,"y":316},{"x":319,"y":318}],"confidence":0.99},
                            {"text":"be","boundingPolygon":[{"x":396,"y":262},{"x":432,"y":262},{"x":432,"y":315},{"x":396,"y":316}],"confidence":0.891},
                            {"text":"the","boundingPolygon":[{"x":441,"y":262},{"x":503,"y":261},{"x":503,"y":312},{"x":442,"y":314}],"confidence":0.994},
                            {"text":"change","boundingPolygon":[{"x":513,"y":261},{"x":613,"y":262},{"x":613,"y":306},{"x":513,"y":311}],"confidence":0.99},
                            {"text":"you","boundingPolygon":[{"x":623,"y":262},{"x":673,"y":263},{"x":673,"y":302},{"x":622,"y":305}],"confidence":0.994}
                        ]
                    },
                    {
                        "text": "wish to see in the world !",
                        "boundingPolygon":
                        [
                            {"x":325,"y":338},
                            {"x":695,"y":328},
                            {"x":696,"y":370},
                            {"x":325,"y":381}
                        ],
                        "words":
                        [
                            {"text":"wish","boundingPolygon":[{"x":325,"y":339},{"x":390,"y":337},{"x":391,"y":380},{"x":326,"y":381}],"confidence":0.992},
                            {"text":"to","boundingPolygon":[{"x":406,"y":337},{"x":443,"y":335},{"x":443,"y":379},{"x":407,"y":380}],"confidence":0.995},
                            {"text":"see","boundingPolygon":[{"x":451,"y":335},{"x":494,"y":334},{"x":494,"y":377},{"x":452,"y":379}],"confidence":0.996},
                            {"text":"in","boundingPolygon":[{"x":502,"y":333},{"x":533,"y":332},{"x":534,"y":376},{"x":503,"y":377}],"confidence":0.996},
                            {"text":"the","boundingPolygon":[{"x":542,"y":332},{"x":590,"y":331},{"x":590,"y":375},{"x":542,"y":376}],"confidence":0.995},
                            {"text":"world","boundingPolygon":[{"x":599,"y":331},{"x":664,"y":329},{"x":664,"y":372},{"x":599,"y":374}],"confidence":0.995},
                            {"text":"!","boundingPolygon":[{"x":672,"y":329},{"x":694,"y":328},{"x":694,"y":371},{"x":672,"y":372}],"confidence":0.957}
                        ]
                    },
                    {
                        "text": "Everything has its beauty , but",
                        "boundingPolygon":
                        [
                            {"x":254,"y":439},
                            {"x":644,"y":433},
                            {"x":645,"y":484},
                            {"x":255,"y":488}
                        ],
                        "words":
                        [
                            {"text":"Everything","boundingPolygon":[{"x":254,"y":442},{"x":379,"y":440},{"x":380,"y":486},{"x":257,"y":488}],"confidence":0.97},
                            {"text":"has","boundingPolygon":[{"x":388,"y":440},{"x":435,"y":438},{"x":436,"y":485},{"x":389,"y":486}],"confidence":0.965},
                            {"text":"its","boundingPolygon":[{"x":445,"y":438},{"x":485,"y":437},{"x":486,"y":485},{"x":446,"y":485}],"confidence":0.99},
                            {"text":"beauty","boundingPolygon":[{"x":495,"y":437},{"x":567,"y":435},{"x":568,"y":485},{"x":496,"y":485}],"confidence":0.685},
                            {"text":",","boundingPolygon":[{"x":577,"y":435},{"x":583,"y":435},{"x":583,"y":485},{"x":577,"y":485}],"confidence":0.939},
                            {"text":"but","boundingPolygon":[{"x":589,"y":435},{"x":644,"y":434},{"x":644,"y":485},{"x":589,"y":485}],"confidence":0.628}
                        ]
                    },
                    {
                        "text": "not everyone sees it !",
                        "boundingPolygon":
                        [
                            {"x":363,"y":508},
                            {"x":658,"y":493},
                            {"x":659,"y":539},
                            {"x":364,"y":552}
                        ],
                        "words":
                        [
                            {"text":"not","boundingPolygon":[{"x":363,"y":510},{"x":412,"y":508},{"x":413,"y":548},{"x":365,"y":552}],"confidence":0.989},
                            {"text":"everyone","boundingPolygon":[{"x":420,"y":507},{"x":521,"y":501},{"x":522,"y":542},{"x":421,"y":548}],"confidence":0.924},
                            {"text":"sees","boundingPolygon":[{"x":536,"y":501},{"x":588,"y":498},{"x":589,"y":540},{"x":537,"y":542}],"confidence":0.987},
                            {"text":"it","boundingPolygon":[{"x":597,"y":497},{"x":627,"y":495},{"x":628,"y":540},{"x":598,"y":540}],"confidence":0.995},
                            {"text":"!","boundingPolygon":[{"x":635,"y":495},{"x":656,"y":494},{"x":657,"y":540},{"x":636,"y":540}],"confidence":0.952}
                        ]
                    }
                ]
            }
        ]
    }
}

Usar a API

O recurso de extração de texto faz parte da API de Análise de Imagem. Inclua Read no parâmetro de consulta features. Em seguida, quando receber a resposta JSON completa, basta analisar a cadeia de caracteres para o conteúdo da seção "readResult".

Próximas etapas

Siga o Guia de início rápido da Análise de Imagem para extrair texto de uma imagem usando a API de Análise de Imagem 4.0.

Compartilhar via

OCR para imagens (versão 4.0)

O que é o OCR de Leitura da Visão de IA do Azure v4.0?

Exemplo de extração de texto

Usar a API

Próximas etapas

Comentários

Recursos adicionais