Azure OpenAI Service의 포함 이해

포함은 기계 학습 모델과 알고리즘이 쉽게 사용할 수 있는 특수한 데이터 표현 형식입니다. 포함은 텍스트 조각의 의미 체계적 의미에 대한 조밀한 정보 표현입니다. 각 포함은 부동 소수점 숫자의 벡터입니다. 따라서 벡터 공간의 두 포함 사이의 거리는 원래 형식의 두 입력 간의 의미 체계 유사성과 상관 관계가 있습니다. 예를 들어 두 텍스트가 비슷한 경우 벡터 표현도 유사해야 합니다. Azure AI Search(권장)와 같은 검색 시스템 및 Azure Cosmos DB for MongoDB vCore, Azure SQL Database 및 Azure Database for PostgreSQL - 유연한 서버같은 Azure 데이터베이스에 전원 벡터 유사성 검색을 포함합니다.

모델 포함

포함을 사용하면 벡터 공간에서 의미 체계 유사성을 캡처하여 단어를 나타내는 큰 입력에서 기계 학습을 더 쉽게 수행할 수 있습니다. 따라서 포함을 사용하여 두 텍스트 청크가 의미 체계적으로 관련되어 있는지 또는 유사한지 확인하고 유사성을 평가하는 점수를 제공할 수 있습니다.

코사인 유사성

Azure OpenAI 포함은 종종 문서와 쿼리 간의 컴퓨팅 유사성을 계산하기 위해 코사인 유사성을 사용합니다.

수학 관점에서 코사인 유사성은 다차원 공간에 투영된 두 벡터 사이의 각도 코사인을 측정합니다. 이 측정은 두 문서가 크기 때문에 유클리드 거리만큼 멀리 떨어져 있는 경우에도 여전히 두 문서 사이의 각도는 더 작아 보다 높은 코사인 유사성을 가질 수 있기 때문에 유용합니다. 코사인 유사성 방정식에 대한 자세한 내용은 코사인 유사성을 참조하세요.

유사한 문서를 식별하는 또 다른 방법은 문서 간의 공통 단어 수를 계산하는 것입니다. 문서 크기가 크기 조정되면 서로 다른 항목 간에도 더 많은 수의 공통 단어가 검색될 가능성이 높기 때문에 이 방식은 크기 조정되지 않습니다. 이러한 이유로 코사인 유사성은 보다 효과적인 대안을 제공할 수 있습니다.

다음 단계