Förstå inbäddningar i Azure OpenAI-tjänsten
En inbäddning är ett särskilt format för datarepresentation som maskininlärningsmodeller och algoritmer enkelt kan använda. Inbäddningen är en informationstät representation av den semantiska innebörden av ett stycke text. Varje inbäddning är en vektor med flyttalsnummer, så att avståndet mellan två inbäddningar i vektorutrymmet korreleras med semantisk likhet mellan två indata i det ursprungliga formatet. Om två texter till exempel är liknande bör deras vektorrepresentationer också vara liknande. Inbäddning av energivektorlikhetssökning i hämtningssystem som Azure AI Search (rekommenderas) och i Azure-databaser som Azure Cosmos DB for MongoDB vCore , Azure SQL Database och Azure Database for PostgreSQL – flexibel server.
Inbäddningsmodeller
Inbäddningar gör det enklare att utföra maskininlärning på stora indata som representerar ord genom att fånga de semantiska likheterna i ett vektorutrymme. Därför kan du använda inbäddningar för att avgöra om två textsegment är semantiskt relaterade eller liknande och ange en poäng för att bedöma likheten.
Cosinélikhet
Azure OpenAI-inbäddningar förlitar sig ofta på cosinnad likhet med beräkningslikhet mellan dokument och en fråga.
Ur ett matematiskt perspektiv mäter cosininelikhet vinkelns cosiné mellan två vektorer som projiceras i ett flerdimensionellt utrymme. Denna mätning är fördelaktig, eftersom om två dokument är långt ifrån varandra av euklidiska avstånd på grund av storlek, kan de fortfarande ha en mindre vinkel mellan dem och därför högre cosinuslikhet. Mer information om cosinska likhetsekvationer finns i Cosinska likheter.
En alternativ metod för att identifiera liknande dokument är att räkna antalet vanliga ord mellan dokument. Den här metoden skalas inte eftersom en ökning av dokumentstorleken sannolikt leder till ett större antal vanliga ord som identifieras även bland olika ämnen. Av den anledningen kan cosinélikhet erbjuda ett effektivare alternativ.
Nästa steg
- Läs mer om hur du använder Azure OpenAI och inbäddningar för att utföra dokumentsökning med vår självstudie om inbäddningar.
- Lagra dina inbäddningar och utför vektorsökningar (likhet) med hjälp av Azure Cosmos DB for MongoDB vCore, Azure Cosmos DB for NoSQL , Azure SQL Database eller Azure Database for PostgreSQL – flexibel server.
- Använda en Eventhouse i Realtidsinformation i Microsoft Fabric som en vektordatabas
- Använd funktionen series_cosine_similarity för likhetssökning.