Статья
04/01/2012

Алгоритм кластеризации последовательностей (Майкрософт)

Алгоритм кластеризации последовательностей (Майкрософт) представляет собой алгоритм анализа последовательностей, предоставляемый службами Microsoft SQL Server Службы Analysis Services. Данный алгоритм можно использовать для просмотра данных, содержащих события, которые могут быть связаны следующими путями, иначе именуемыми последовательностями. Алгоритм находит самые распространенные последовательности, выполняя группирование или кластеризацию идентичных последовательностей. Рассмотрим несколько примеров последовательностей.

Данные, описывающие пути, которые создаются, когда пользователи просматривают веб-сайт.
Данные, которые описывают порядок, в котором клиент добавляет в корзинку товары, выбранные в Интернет-магазине.

Этот алгоритм во многом напоминает алгоритм кластеризации (Майкрософт). Однако вместо поиска кластеров вариантов, содержащих похожие атрибуты, алгоритм кластеризации последовательностей (Майкрософт) находит кластеры вариантов, содержащие похожие пути в последовательности.

Пример

Веб-сайт Adventure Works Cycles собирает сведения о страницах, посещаемых пользователями сайта, и о порядке посещения таких страниц. Поскольку компания предоставляет возможность заказа по сети, клиентам необходимо зарегистрироваться на узле. Благодаря этому с каждым щелчком мыши клиента компания получает сведения о действиях в рамках узла, выполняемых под клиентским профилем. Применив в отношении таких данных алгоритм кластеризации последовательностей (Майкрософт), компания может найти группы или кластеры клиентов, для которых характерны похожие закономерности или последовательности щелчков. Компания затем может использовать данные кластеры для анализа перемещения пользователей в рамках веб-сайта, определения страниц, которые ближе всех связаны с продажей конкретного продукта, а также прогнозирования страниц, которые клиент с наибольшей долей вероятности посетит в следующий раз.

Принцип работы алгоритма

Алгоритм кластеризации последовательностей (Майкрософт) – это гибридный алгоритм, сочетающий методы с анализом марковских цепей для определения кластеров и их последовательностей. Одной из особенностей алгоритма кластеризации последовательностей (Майкрософт) является то, что он использует данные последовательностей. Такие данные обычно представляют ряд событий или переходов между состояниями в наборе данных, например ряд приобретений продуктов или щелчков мышью на веб-узле для конкретного пользователя. Алгоритм изучает вероятность переходов и измеряет различия, или расстояния, между всеми возможными последовательностями в наборе данных, чтобы определить, какие последовательности лучше всего использовать в качестве входных данных для кластеризации. После создания алгоритмом списка вероятных последовательностей он использует данные этой последовательности в качестве входных данных для EM-метода кластеризации.

Подробное описание этой реализации см. в разделе Технический справочник по алгоритму кластеризации последовательностей (Майкрософт) (службы Analysis Services — интеллектуальный анализ данных).

Данные, необходимые для моделей кластеризации последовательностей

При подготовке данных, предназначенных для использования в обучении модели кластеризации последовательностей, следует учитывать требования к конкретному алгоритму, в том числе к объему необходимых данных, и то, как эти данные используются.

К модели кластеризации последовательностей предъявляются следующие требования.

Единственный key столбец Модель кластеризации последовательностей требует ключ, идентифицирующий записи.
Столбец последовательности Для данных последовательности модель должна иметь вложенную таблицу, содержащую столбец идентификатора последовательности. Идентификатор последовательности может иметь любой подлежащий сортировке тип данных. Например, можно использовать идентификатор веб-страницы, целое число или текстовую строку с условием, что столбец идентифицирует события в последовательности. Для каждой последовательности допускается только один идентификатор последовательности, а в каждой модели допускается только один тип последовательности.
Необязательные атрибуты, не относящиеся к последовательности алгоритм поддерживает добавление других атрибутов, не связанных с последовательностью. Эти атрибуты могут включать вложенные столбцы.

Например, в случае с указанным выше веб-сайтом Adventure Works Cycles модель кластеризации последовательности может включать в качестве не связанных с последовательностью атрибутов такие сведения о заказе, как таблица вариантов и демографические данные клиента. Кроме того, она будет включать вложенную таблицу, содержащую последовательность просмотра веб-сайта клиентом или покупки в корзине в качестве данных последовательности.

Дополнительные сведения о типах содержимого и типах данных, поддерживаемых моделями кластеризации последовательности, см. в разделе «Требования» статьи Технический справочник по алгоритму кластеризации последовательностей (Майкрософт) (службы Analysis Services — интеллектуальный анализ данных).

Просмотр модели кластеризации последовательности

Модель интеллектуального анализа данных, создаваемая данным алгоритмом, содержит описания самых распространенных последовательностей в данных. Чтобы исследовать модель, можно использовать Средство просмотра кластеризации последовательностей (Майкрософт). При просмотре модели кластеризации последовательности службы Службы Analysis Services отображают кластеры, содержащие несколько переходов. Можно также просмотреть соответствующие статистические данные. Дополнительные сведения см. в разделе Просмотр модели интеллектуального анализа данных при помощи средства просмотра кластеризации последовательностей (Майкрософт).

Чтобы получить более подробные сведения, можно просмотреть модель с помощью средства просмотра деревьев содержимого общего вида (Майкрософт). Содержимое, сохраняемое для модели, включает распределение всех значений в каждом узле, вероятность каждого кластера и подробные сведения о переходах. Дополнительные сведения см. в разделе Содержимое моделей интеллектуального анализа данных для моделей кластеризации последовательностей (службы Analysis Services — интеллектуальный анализ данных).

Создание прогнозов

После обучения модели результаты хранятся в виде набора шаблонов. Можно использовать описания наиболее распространенных последовательностей в данных для прогноза следующего наиболее вероятного шага в новой последовательности. Но поскольку алгоритм включает другие столбцы, результирующую модель можно использовать для определения связи между данными, включенными в последовательность, и данными, не включенными в нее. Например, если к модели добавляются демографические данные, можно сделать прогноз для конкретной группы клиентов. Прогнозирующие запросы можно настраивать для того, чтобы они возвращали переменное число прогнозов или описательные статистические данные.

Дополнительные сведения о создании запросов к модели интеллектуального анализа данных см. в разделе Запрос моделей интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных). Примеры использования запросов с моделью кластеризации последовательности см. в разделе Запросы к модели кластеризации последовательностей (службы Analysis Services — интеллектуальный анализ данных).

Примечания

Не поддерживается использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа данных.
Поддерживается детализация.
Поддерживается использование моделей интеллектуального анализа OLAP и создание измерений интеллектуального анализа данных.