Изучение модели дерева принятия решений (учебник по интеллектуальному анализу данных — начальный уровень)

Алгоритм дерева принятия решений (Майкрософт) прогнозирует, какие столбцы влияют на решение о приобретении велосипеда на основании оставшихся столбцов в обучающем наборе.

Средство просмотра дерева принятия решений (Майкрософт) содержит следующие вкладки для использования при исследовании моделей интеллектуального анализа данных дерева принятия решений.

Дерево принятия решений

Сеть зависимостей

В следующем разделе описан выбор наиболее пригодного средства просмотра и исследование других моделей интеллектуального анализа данных.

Вкладка «Дерево принятия решений»

На вкладке Дерево принятия решений можно изучать все древовидные модели, из которых состоит модель интеллектуального анализа данных.

Поскольку модель прямой почтовой рассылки для проекта этого учебного проекта содержит только один прогнозируемый атрибут, «Покупатель велосипеда», для просмотра доступно только одно дерево. При наличии нескольких деревьев нужное можно выбрать в поле Дерево.

При просмотре модели TM_Decision_Tree в средстве просмотра дерева принятия решений обнаруживается, что возраст является единственным важным фактором в прогнозировании покупки велосипеда. Интересно, что при группировании клиентов по возрасту следующая ветвь дерева различна для каждого узла возраста. В результате исследования вкладки «Дерево принятия решений» можно заключить, что покупатели от 34 до 40 лет, имеющие один автомобиль или не имеющие автомобиля, в большой вероятностью купят велосипед и что неженатые, молодые клиенты, живущие в Тихоокеанском регионе и имеющие не более одного автомобиля, также с большой вероятностью купят велосипед.

Исследование модели на вкладке «Дерево принятия решений»

  1. Перейдите на вкладку Средство просмотра модели интеллектуального анализа данных в конструкторе интеллектуального анализа данных.

    По умолчанию конструктор открывается на первой модели, добавленной в структуру, в данном случае — на модели TM_Decision_Tree.

  2. Для настройки размера отображения дерева воспользуйтесь кнопками со значком лупы.

    По умолчанию в средстве просмотра деревьев (Майкрософт) отображаются только первые три уровня дерева. Если дерево содержит меньше трех уровней, показываются только существующие уровни. Увеличить число отображаемых уровней можно с помощью ползунка Отображение уровня или списка Расширение по умолчанию.

  3. Переместите ползунок Отображение уровня на значение 4.

  4. Установите для параметра Фон значение 1.

    Изменив параметр Фон, можно быстро просмотреть число вхождений в каждый узел, имеющих целевое значение 1 для элемента [Покупатель велосипеда]. В этом конкретном сценарии следует помнить, что каждый вариант представляет покупателя. Значение 1 показывает, что покупатель ранее уже приобретал велосипед. Значение 0 показывает, что покупатель не приобретал велосипеда. Чем темнее заливка узла, тем больший процент вариантов с нужным целевым значением он содержит.

  5. Поместите курсор над узлом с заголовком Все. В подсказке отобразятся следующие сведения.

    • Общее число вариантов

    • Число вариантов покупки товара, не являющегося велосипедом

    • Число вариантов покупки велосипеда

    • Число вариантов с отсутствующими значениями для элемента [Покупатель велосипеда]

    Можно также поместить курсор над любым узлом в дереве и просмотреть условие, необходимое для достижения этого узла из узла, стоящего перед ним. Эти сведения можно также просмотреть в окне Обозначения интеллектуального анализа данных.

  6. Щелкните узел для категории Возраст >=34 и < 41. Отобразится гистограмма в виде тонкой горизонтальной полоски, пересекающей узел. Она показывает распределение клиентов в этом диапазоне возраста, которые раньше покупали (розовый цвет) и не покупали (синий цвет) велосипед. В средстве просмотра показано, что клиенты в возрасте от 34 до 40 лет с одним автомобилем или не имеющие автомобиля, вероятно, купят велосипед. Сделав еще один шаг, мы видим, что вероятность покупки велосипеда увеличивается, если возраст клиента — от 38 до 40 лет.

Поскольку при создании структуры и модели была включена детализация, из вариантов модели и структуры интеллектуального анализа данных можно получить подробные сведения, в том числе для столбцов, не включенных в модель интеллектуального анализа данных (например, столбцов emailAddress, FirstName).

Дополнительные сведения см. в разделе Использование детализации в моделях и структурах интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

Углубленная детализация данных вариантов

  1. Щелкните правой кнопкой мыши узел и выберите Детализация, затем Только столбцы модели.

    Сведения для каждого обучающего варианта отображаются в формате электронной таблицы. Эти сведения получены из представления vTargetMail, выбранного как таблица вариантов при построении структуры интеллектуального анализа данных.

  2. Щелкните правой кнопкой мыши узел и выберите Детализация, затем Столбцы модели и структуры.

    Отобразится та же электронная таблица со столбцами структуры, присоединенными в конец таблицы.

В начало

Вкладка «Сеть зависимостей»

На вкладке Сеть зависимостей отображаются связи между атрибутами, образующими прогнозную часть модели интеллектуального анализа данных. Средство просмотра «Сеть зависимостей» еще более явно подтверждает предположение, что возраст и регион являются важными факторами в прогнозировании покупки велосипеда.

Исследование модели на вкладке «Сеть зависимостей»

  1. Щелкните узел Покупатель велосипеда, чтобы определить его зависимости.

    Центральный узел сети зависимостей Покупатель велосипеда отражает прогнозируемый атрибут модели интеллектуального анализа данных. Розовая заливка показывает, что на покупку велосипеда влияют все атрибуты.

  2. Переместите ползунок Все связи, чтобы увидеть атрибут, оказывающий наибольшее влияние.

    По мере перемещения ползунка вниз остаются только атрибуты с наибольшим влиянием на столбец [Покупатель велосипеда]. Перемещая ползунок, можно узнать, что возраст и регион являются факторами, оказывающими самое сильное влияние на принятие решения о покупке велосипеда.

См. также

Справочник

Основные понятия

Другие ресурсы