Изучение модели кластеризации (учебник по интеллектуальному анализу данных — начальный уровень)

Алгоритм кластеризации Microsoft выполняет группировку вариантов в кластеры, которые имеют одинаковые характеристики. Такие группирования полезно использовать для просмотра данных, выявления в них аномалий и создания прогнозов.

Средство просмотра кластеров (Майкрософт) содержит следующие вкладки для изучения кластерных моделей интеллектуального анализа данных:

Схема кластеров

Профили кластера

Характеристики кластера

Сравнения кластеров

В следующих разделах описываются процедуры выбора соответствующего средства просмотра и изучения других моделей интеллектуального анализа данных.

Вкладка «Схема кластеров»

Вкладка «Схема кластеров» содержит все кластеры, которые имеются в модели интеллектуального анализа данных. Линии между кластерами показывают «близость», а их заливка отражает степень схожести кластеров. Цвет каждого из кластеров указывает на частоту появления переменной и состояние в кластере.

Изучение модели на вкладке «Схема кластеров»

  1. Используйте список Модель интеллектуального анализа данных, расположенный вверху окна Средство просмотра моделей интеллектуального анализа данных для перехода к модели TM_Clustering.

  2. В списке Средство просмотра выберите Средство просмотра кластеров (Майкрософт).

  3. В поле Переменная заливки выберите Покупатель велосипеда.

    По умолчанию используется переменная Заполнение, однако в роли такой переменной может выступать любой атрибут модели, что позволяет выяснить, какие кластеры содержат члены с требуемыми атрибутами.

  4. Выберите 1 в поле Состояние, чтобы изучить те варианты, когда состоялась покупка велосипеда.

    Обозначение Плотность описывает плотность пар состояний атрибутов, выбранных в полях «Переменная заливки» и «Состояние». В данном примере это указывает, что кластер с самой темной заливкой имеет наибольший процент покупателей велосипедов.

  5. Наведите указатель мыши на кластер с самой темной заливкой.

    Во всплывающей подсказке отобразится процент вариантов, у которых атрибут Bike Buyer = 1.

  6. Выберите кластер с максимальной плотностью, щелкните его правой кнопкой мыши, выберите пункт Переименовать кластер и введите Много покупателей велосипедов для последующей идентификации. Нажмите кнопку ОК.

  7. Найдите кластер с самой светлой заливкой (и с наименьшей плотностью). Щелкните данный кластер правой кнопкой мыши, выберите команду Переименовать кластер и введите Мало покупателей велосипедов. Нажмите кнопку ОК.

  8. Щелкните кластер Много покупателей велосипедов и перетащите его в область панели, в которой явно видны его соединения с другими кластерами.

    При выборе кластера выделяются линии, соединяющие его с другими кластерами, что позволяет легко определить связи данного кластера. Если кластер не выделен, по цвету линий можно определить, насколько тесная связь между кластерами схемы. Светлая заливка или отсутствие заливки означает, что кластеры не очень схожи.

  9. С помощью ползунка, расположенного слева от сети, можно отфильтровывать слабые связи и находить кластеры с наиболее близкими связями. Отделу маркетинга компании Adventure Works Cycles может потребоваться объединить похожие кластеры при определении наилучшего способа прямой почтовой рассылки.

В начало

Вкладка «Профили кластера»

Вкладка Профили кластера содержит общие сведения о модели TM_Clustering. На вкладке Профили кластера есть столбец для каждого кластера модели. В первом столбце перечислены атрибуты, связанные по крайней мере с одним кластером. В оставшейся области средства просмотра отображается распределение состояний атрибута для каждого из кластеров. Распределение дискретной переменной показано цветным столбцом, при этом максимальное количество видимых столбцов задается в списке Столбцы гистограммы. Непрерывные атрибуты отображаются в ромбовидной диаграмме, отражающей среднее и стандартное отклонение в каждом из кластеров.

Изучение модели на вкладке «Профили кластера»

  1. Установите значение столбцов Гистограммы равное 5.

    В нашей модели значение 5 — это максимальное количество состояний для любой одной переменной.

  2. Перенесите в сторону Обозначения интеллектуального анализа данных, если они препятствуют просмотру Профилей атрибутов.

  3. Выберите столбец Много покупателей велосипедов и перетащите его таким образом, чтобы он оказался справа от столбца Заполнение.

  4. Выберите столбец Мало покупателей велосипедов и перетащите его таким образом, чтобы он оказался справа от столбца Много покупателей велосипедов.

  5. Щелкните столбец Много покупателей велосипедов.

    В столбце Переменные установлена сортировка по важности для данного кластера. Просмотрите столбец и проанализируйте характеристики кластера «Много покупателей велосипедов». Например, вероятно, что они живут недалеко от работы.

  6. Дважды щелкните ячейку Возраст в столбце Много покупателей велосипедов.

    В области Обозначения интеллектуального анализа данных появится более детальное представление, где можно увидеть диапазон возрастной группы, а также средний возраст покупателей.

  7. Щелкните правой кнопкой мыши столбец Мало покупателей велосипедов и выберите пункт Скрыть столбец.

В начало

Вкладка «Характеристики кластера»

На вкладке Характеристики кластера можно просмотреть подробные сведения о кластере. Вместо сравнения характеристик всех кластеров (как на вкладке «Профили кластера») кластеры можно анализировать по одному. Например, если выбрать Много покупателей велосипедов из списка Кластер, можно просмотреть характеристики покупателей данного кластера. Хотя данное представление отличается от средства просмотра профилей кластера, результаты остаются такими же.

ПримечаниеПримечание

Если для параметра holdoutseed не задано начальное значение, результаты будут отличаться каждый раз при последующей обработке модели. Дополнительные сведения см. в разделе Элемент HoldoutSeed.

В начало

Вкладка «Сравнения кластеров»

На вкладке Сравнения кластеров можно выявить, какие характеристики отличают кластеры друг от друга. Если выбрать два кластера — один из списка Кластер 1 и один из списка Кластер 2, — то средство просмотра вычислит разницу между кластерами и отобразит список атрибутов, по которым эти кластеры различаются больше всего.

Изучение модели на вкладке «Сравнения кластеров»

  1. В поле Кластер 1 выберите Много покупателей велосипедов.

  2. В поле Кластер 2 выберите Мало покупателей велосипедов.

  3. Для сортировки по алфавиту щелкните Переменные.

    Некоторые из более существенных различий между покупателями в кластерах Мало покупателей велосипедов и Много покупателей велосипедов включают возраст, владение автомобилем, количество детей и регион.

См. также

Справочник

Основные понятия