Noções básicas sobre inserções do Serviço OpenAI do Azure
Uma inserção é um formato especial de representação de dados que os algoritmos e modelos de machine learning podem usar facilmente. A inserção é uma representação densa de informações do significado semântico de um texto. Cada inserção é um vetor de números de ponto flutuante, de modo que a distância entre duas inserções no espaço do vetor esteja correlacionada com a similaridade semântica entre duas entradas no formato original. Por exemplo, se dois textos forem semelhantes, suas representações de vetor também deverão ser semelhantes. As inserções potencializam a pesquisa de similaridade de vetores em sistemas de recuperação, como Pesquisa de IA do Azure (recomendado) e em bancos de dados do Azure, como Azure Cosmos DB para MongoDB vCore , Banco de Dados SQL do Azure e Banco de Dados do Azure para PostgreSQL - Servidor Flexível.
Inserir modelos
As inserções facilitam o aprendizado de máquina em entradas grandes que representam palavras capturando as semelhanças semânticas em um espaço de vetor. Portanto, você pode usar inserções para determinar se duas partes de texto estão semanticamente relacionadas ou semelhantes e fornecer uma pontuação para avaliar a similaridade.
Similaridade de cosseno
Os inserções do OpenAI do Azure frequentemente dependem da similaridade do cosseno para calcular a similaridade entre documentos e uma consulta.
Do ponto de vista matemático, a similaridade de cosseno mede o cosseno do ângulo entre dois vetores projetados em um espaço multidimensional. Essa medida é benéfica porque, se dois documentos estiverem distantes pela distância euclidiana devido ao tamanho, eles ainda poderão ter um ângulo menor entre eles e, portanto, maior similaridade de cosseno. Para obter mais informações sobre equações de similaridade de cosseno, confira Similaridade de cosseno.
Um método alternativo de identificação de documentos semelhantes é contar o número de palavras comuns entre documentos. Essa abordagem não é escalada, pois uma expansão no tamanho do documento provavelmente pode levar a um número maior de palavras comuns detectadas mesmo entre tópicos diferentes. Por esse motivo, a similaridade de cosseno pode oferecer uma alternativa mais eficaz.
Próximas etapas
- Saiba mais sobre como usar o OpenAI do Azure e inserções para executar a pesquisa de documentos com nosso tutorial sobre inserções.
- Armazene suas inserções e execute a pesquisa de vetor (similaridade) usando o Azure Cosmos DB for MongoDB vCore, Azure Cosmos DB for NoSQL, Banco de Dados SQL do Azure ou Banco de Dados do Azure para PostgreSQL – Servidor Flexível.
- Usar um Eventhouse em Inteligência em Tempo Real no Microsoft Fabric como um banco de dados Vector
- Use a função series_cosine_similarity para pesquisa de similaridade.