Noções básicas sobre inserções do Serviço OpenAI do Azure

Uma inserção é um formato especial de representação de dados que os algoritmos e modelos de machine learning podem usar facilmente. A inserção é uma representação densa de informações do significado semântico de um texto. Cada inserção é um vetor de números de ponto flutuante, de modo que a distância entre duas inserções no espaço do vetor esteja correlacionada com a similaridade semântica entre duas entradas no formato original. Por exemplo, se dois textos forem semelhantes, suas representações de vetor também deverão ser semelhantes. As inserções potencializam a pesquisa de similaridade de vetores em sistemas de recuperação, como Pesquisa de IA do Azure (recomendado) e em bancos de dados do Azure, como Azure Cosmos DB para MongoDB vCore , Banco de Dados SQL do Azure e Banco de Dados do Azure para PostgreSQL - Servidor Flexível.

Inserir modelos

As inserções facilitam o aprendizado de máquina em entradas grandes que representam palavras capturando as semelhanças semânticas em um espaço de vetor. Portanto, você pode usar inserções para determinar se duas partes de texto estão semanticamente relacionadas ou semelhantes e fornecer uma pontuação para avaliar a similaridade.

Similaridade de cosseno

Os inserções do OpenAI do Azure frequentemente dependem da similaridade do cosseno para calcular a similaridade entre documentos e uma consulta.

Do ponto de vista matemático, a similaridade de cosseno mede o cosseno do ângulo entre dois vetores projetados em um espaço multidimensional. Essa medida é benéfica porque, se dois documentos estiverem distantes pela distância euclidiana devido ao tamanho, eles ainda poderão ter um ângulo menor entre eles e, portanto, maior similaridade de cosseno. Para obter mais informações sobre equações de similaridade de cosseno, confira Similaridade de cosseno.

Um método alternativo de identificação de documentos semelhantes é contar o número de palavras comuns entre documentos. Essa abordagem não é escalada, pois uma expansão no tamanho do documento provavelmente pode levar a um número maior de palavras comuns detectadas mesmo entre tópicos diferentes. Por esse motivo, a similaridade de cosseno pode oferecer uma alternativa mais eficaz.

Próximas etapas