Выбор хранилища данных для поиска в Azure

В этой статье сравниваются варианты технологий хранилища данных для поиска в Azure. Хранилище данных для поиска позволяет создавать и хранить специализированные поисковые индексы для поиска по тексту в свободной форме. Индексируемый текст может находиться в отдельном хранилище данных, например в хранилище BLOB-объектов. Приложение отправляет запрос к хранилищу данных для поиска и в результате выводится список соответствующих документов. Дополнительные сведения об этом сценарии см. в статье Обработка текста в свободной форме для поиска.

Варианты при выборе хранилища данных для поиска

Все следующие хранилища данных в Azure соответствуют основным требованиям к поиску по текстовым данным в свободной форме, так как предоставляют поисковый индекс:

Основные критерии выбора

Для сценариев поиска сначала выберите хранилище данных для поиска, которое соответствует вашим требованиям, ответив на следующие вопросы:

  • Вы хотите использовать управляемую службу, а не управлять собственными серверами?

  • Вы можете указать схему индекса во время разработки? Если нет, выберите вариант, который поддерживает обновляемые схемы.

  • Вам нужно использовать индекс только для полнотекстового поиска или также для быстрого агрегирования числовых данных и других функций аналитики? Если помимо полнотекстового поиска вам требуются другие функции, рассмотрите варианты с поддержкой дополнительных функций аналитики.

  • Требуется ли индекс поиска для Log Analytics с поддержкой сбора журналов, агрегирования и визуализаций для индексированных данных? Если да, рассмотрим Elasticsearch, который входит в стек Log Analytics.

  • Вы будете индексировать данные в стандартных форматах документов, например PDF, Word, PowerPoint и Excel? Если да, выберите вариант с индексаторами документов.

  • Есть ли у вашей базы данных особые требования к безопасности? Если да, используйте функции безопасности, перечисленные ниже.

Матрица возможностей

В следующих таблицах перечислены основные различия в возможностях.

Общие возможности

Возможность Когнитивный поиск Elasticsearch База данных SQL
Является управляемой службой Да No Да
REST API Да Да Нет
Программируемость .NET, Java, Python, JavaScript Java T-SQL
Индексаторы документов для стандартных типов файлов (PDF, DOCX, TXT и т. д.) Да No No

Возможности управления

Возможность Когнитивный поиск Elasticsearch База данных SQL
Обновляемая схема Да Да Да
Поддержка горизонтального увеличения масштаба Да Да Нет

Возможности для поддержки аналитических рабочих нагрузок

Возможность Когнитивный поиск Elasticsearch База данных SQL
Поддержка других функций аналитики, помимо полнотекстового поиска No Да Да
Часть стека Log Analytics No Да (ELK) No
Поддержка семантического поиска Да (только поиск похожих документов) Да Да

Возможности системы безопасности

Возможность Когнитивный поиск Elasticsearch База данных SQL
Безопасность на уровне строк Частично (требуется запрос приложения для фильтрации по идентификатору группы) Частично (требуется запрос приложения для фильтрации по идентификатору группы) Да
Прозрачное шифрование данных No No Да
Ограничение доступа для определенных IP-адресов Да Да Да
Ограничение доступа для разрешения доступа только к виртуальной сети Да Да Да
Аутентификация Active Directory (встроенная) No No Да

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Автор субъекта:

Следующие шаги