Общие сведения о внедрении в Службе Azure OpenAI
Внедрение — это специальный формат представления данных, который модели машинного обучения и алгоритмы могут легко использовать. Внедрение представляет собой представление семантического значения фрагмента текста с высокой информационной плотностью. Каждое внедрение является вектором чисел с плавающей запятой, таким образом, расстояние между двумя внедрениями в векторное пространство сопоставляется с семантическим сходством между двумя входными данными в исходном формате. Например, если два текста похожи, их векторные представления также должны быть похожи. Внедрение поиска сходства вектора питания в системах извлечения, таких как поиск ИИ Azure (рекомендуется) и в базах данных Azure, таких как Azure Cosmos DB для виртуальных ядер MongoDB, База данных SQL Azure и База данных Azure для PostgreSQL — гибкий сервер.
Внедрение моделей
Внедрение упрощает машинное обучение для больших входных данных, представляющих слова, записывая семантические сходства в векторном пространстве. Таким образом, можно использовать внедрение, чтобы определить, связаны ли два фрагмента текста семантической или аналогичной, и предоставить оценку для оценки сходства.
Сходство косинуса
Внедрение Azure OpenAI часто зависит от совместности вычислений сходства между документами и запросом.
С точки зрения математики, косинус сходства измеряет косинус угла между двумя векторами, проецируемыми в многомерное пространство. Это измерение полезно, потому что если два документа далеко друг от друга по Евклидеан расстоянию из-за размера, они все еще могут иметь меньший угол между ними и, следовательно, более высокий косинус сходство. Дополнительные сведения о уравнениях сходства косинуса см. в статье о подобии Косина.
Альтернативным способом идентификации аналогичных документов является подсчет количества распространенных слов между документами. Этот подход не масштабируется, так как расширение размера документа, скорее всего, приведет к большему количеству распространенных слов, обнаруженных даже среди разрозненных тем. По этой причине сходство косинуса может предложить более эффективную альтернативу.
Следующие шаги
- Узнайте больше об использовании Azure OpenAI и внедрения для выполнения поиска документов с помощью руководства по внедрению.
- Сохраните внедренные и выполняйте поиск вектора (сходства) с помощью Azure Cosmos DB для виртуальных ядер MongoDB, Azure Cosmos DB для NoSQL, База данных SQL Azure или База данных Azure для PostgreSQL — гибкий сервер.
- Использование хранилища событий в аналитике в режиме реального времени в Microsoft Fabric в качестве векторной базы данных
- Используйте функцию series_cosine_similarity для поиска сходства.