Анализ наборов данных

Модели машинного обучения "обучаются" на основе исторических решений и действий, полученных из данных обучения. В результате их производительность в реальных сценариях сильно влияет на данные, на основе которых они обучаются. При отклонении распределения функций в наборе данных модель может привести к неправильному прогнозированию точек данных, принадлежащих недопредставленной группе или оптимизации на основе неуместных метрик.

Например, в то время как модель обучала систему ИИ для прогнозирования цен на жилье, обучающий набор представлял 75 процентов новых домов, которые имели меньше медиан цен. В результате это было гораздо менее точно в успешном выявлении более дорогих исторических домов. Исправление было добавить старые и дорогие дома в обучающие данные и расширить функции, чтобы включить аналитические сведения об исторической ценности. Это расширение данных улучшило результаты.

Компонент анализа данных панели мониторинга ответственного искусственного интеллекта помогает визуализировать наборы данных на основе прогнозируемых и фактических результатов, групп ошибок и конкретных функций. Это помогает выявить проблемы чрезмерного использования и недопредставления, а также узнать, как данные кластеризованы в наборе данных. Визуализации данных состоят из статистических графиков или отдельных точек данных.

Когда следует использовать анализ данных

Используйте анализ данных при необходимости:

  • изучить статистику набора данных, выбрав различные фильтры, чтобы разделить данные на различные измерения (также называемые когортами);
  • понять процесс распределения набора данных между различными когортами и группами возможностей;
  • Определите, являются ли ваши выводы, связанные с справедливостью, анализом ошибок и причинностью (производными от других компонентов панели мониторинга), результатом распространения набора данных.
  • Определите, в каких областях необходимо собирать больше данных для устранения ошибок, возникающих при возникновении проблем с представлением, шумом меток, шумом признаков, предвзятостью меток и аналогичными факторами.

Следующие шаги