Förstå inbäddningar i Azure OpenAI-tjänsten

En inbäddning är ett särskilt format för datarepresentation som maskininlärningsmodeller och algoritmer enkelt kan använda. Inbäddningen är en informationstät representation av den semantiska innebörden av ett stycke text. Varje inbäddning är en vektor med flyttalsnummer, så att avståndet mellan två inbäddningar i vektorutrymmet korreleras med semantisk likhet mellan två indata i det ursprungliga formatet. Om två texter till exempel är liknande bör deras vektorrepresentationer också vara liknande. Inbäddning av energivektorlikhetssökning i hämtningssystem som Azure AI Search (rekommenderas) och i Azure-databaser som Azure Cosmos DB for MongoDB vCore , Azure SQL Database och Azure Database for PostgreSQL – flexibel server.

Inbäddningsmodeller

Inbäddningar gör det enklare att utföra maskininlärning på stora indata som representerar ord genom att fånga de semantiska likheterna i ett vektorutrymme. Därför kan du använda inbäddningar för att avgöra om två textsegment är semantiskt relaterade eller liknande och ange en poäng för att bedöma likheten.

Cosinélikhet

Azure OpenAI-inbäddningar förlitar sig ofta på cosinnad likhet med beräkningslikhet mellan dokument och en fråga.

Ur ett matematiskt perspektiv mäter cosininelikhet vinkelns cosiné mellan två vektorer som projiceras i ett flerdimensionellt utrymme. Denna mätning är fördelaktig, eftersom om två dokument är långt ifrån varandra av euklidiska avstånd på grund av storlek, kan de fortfarande ha en mindre vinkel mellan dem och därför högre cosinuslikhet. Mer information om cosinska likhetsekvationer finns i Cosinska likheter.

En alternativ metod för att identifiera liknande dokument är att räkna antalet vanliga ord mellan dokument. Den här metoden skalas inte eftersom en ökning av dokumentstorleken sannolikt leder till ett större antal vanliga ord som identifieras även bland olika ämnen. Av den anledningen kan cosinélikhet erbjuda ett effektivare alternativ.

Nästa steg