Развитие операций с наблюдаемостью

Завершено
Получите представление о системе, наследуйте аналитические сведения и принимаете решения на основе данных.

Создайте язык и региональные параметры, которые постоянно улучшают качество, отслеживая рабочую нагрузку и принимая во внимание все основные компоненты платформы Azure Well-Architected Framework. Позволяет команде и заинтересованным лицам принимать краткосрочные и долгосрочные решения во многих аспектах, предоставляя необходимые данные, статистику и тенденции. Ознакомьтесь с улучшениями данных и диска.

Операции, созданные в целях наблюдения, являются ключевыми для упреждающего обслуживания приложения, обеспечения качества и безопасности, планирования емкости и управления продуктами.

Важным аспектом мониторинга приложений является использование моделирования работоспособности для прогнозирования проблем, прежде чем они становятся инцидентами и влияют на взаимодействие с клиентами. Эффективный мониторинг снижает количество реактивных циклов, потраченных на управление инцидентами.

Пример сценария

Компания Contoso разработала приложение для внутреннего использования с именем Contoso Real Estate. Это веб-приложение позволяет новым сотрудникам или существующим сотрудникам, которые перемещаются для поиска и резервирования краткосрочного жилья, чтобы помочь в их перемещении. Отдел кадров Компании Contoso также использует приложение для помощи в перемещении.

Приложение находится в рабочей среде и полностью развертывается в Azure. Он основан на микрослужбах с помощью приложений контейнеров Azure, а также использует Функции Azure, Базу данных Azure для PostrgreSQL, Хранилище BLOB-объектов Azure и Azure Monitor.

Наблюдение за рабочей нагрузкой с помощью телеметрии

Выводит данные телеметрии из кода приложения, который сопоставляет ключевые точки потока выполнения и предоставляет сквозное представление на разных уровнях детализации.

Определите приоритеты действий на основе уровня серьезности и понять контекст, учитывая его детализацию. Эта информация имеет решающее значение для устранения неполадок.

Задача Компании Contoso

  • Пользователи сообщают, что после недавнего обновления приложения Contoso Real Estate они иногда видят пустую страницу или универсальное сообщение об ошибке на странице поиска веб-приложения. Ошибки кажутся случайными, и функции поиска обычно работают, если пользователи просто обновят страницу или повторно отправьте поиск.
  • Просмотр журналов в микрослужбе поиска команда заметила увеличение ошибок из-за времени ожидания подключения к База данных Azure для PostgreSQL, но в настоящее время они не могут определить, соответствует ли ошибка, которую они видят в журналах микрослужб поиска, соответствует страницам ошибок, которые пользователи видят или нет.

Применение подхода и результатов

  • Команда разработчиков решила расширить информацию, которую они регистрируют как из веб-приложения, так и основных микрослужб, чтобы глубже разобраться в проблеме. Для сценария поиска они фиксируют условия поиска вместе с другими доступными атрибутами транзакций, такими как время, IP-адрес клиента и имя пользователя, связанное с поиском. Эти дополнительные данные должны дать им достаточно информации, чтобы иметь возможность сопоставлять транзакции между уровнями.
  • Это изменение позволило команде убедиться, что время ожидания запросов базы данных, которые не обрабатывались должным образом в последнем обновлении приложения, были первопричиной сбоев, с которыми столкнулись пользователи. После поиска первопричины команда была простой для реализации исправления.
  • Теперь команда разрабатывает новый подход с помощью OpenTelemetry для реализации более комплексного распределенного решения трассировки, охватывающего все уровни решений.

Визуализация данных мониторинга на панелях мониторинга

Агрегируйте и визуализировать данные на панелях мониторинга, чтобы представить данные мониторинга, которые обслуживаются аудиторией и сохраняют бизнес-контекст. Используйте ситуационные панели мониторинга для поиска данных для обеспечения осведомленности среди заинтересованных лиц. Используйте операционные панели мониторинга и книги с возможностями детализации для действий операторов, таких как реагирование на инциденты. Часто обновляют панели мониторинга и предоставляют детализированные данные.

С помощью визуализаций можно анализировать тенденции, отслеживать бизнес-цели и управлять инцидентами.

Панели мониторинга, адаптированные к интересам клиента, делают интерпретацию релевантной и ускоряют время обнаружения и действия.

Задача Компании Contoso

  • Команда рабочей нагрузки объединяет данные телеметрии со всех уровней решений в одну рабочую область Log Analytics, доступ к которой можно получить командами операций и командами разработчиков и другими заинтересованными лицами проекта. Однако взаимодействие с данными сложно и сложно, что разочаровывает участников группы, которые должны различать фоновый шум от практических данных.

Применение подхода и результатов

  • Команда предпринимает усилия по агрегации и визуализации данных с помощью панелей мониторинга. Каждая панель мониторинга будет адаптирована для конкретной аудитории:
    • Панели мониторинга заинтересованных сторон решения будут более ориентированными на бизнес, представляя более высокий уровень общего состояния решения, а также бизнес-показатели, такие как количество обслуживаемых пользователей, поиск и резервирование.
    • Операционные панели мониторинга и книги будут иметь более подробные и детализированные данные для группы операций. Эти панели мониторинга будут иметь возможности детализации, которые позволяют пользователям просматривать данные на разных уровнях детализации. Пользователи смогут использовать эти панели мониторинга и книги для устранения неполадок и других задач реагирования на инциденты.
  • Панели мониторинга позволяют пользователям анализировать тенденции, отслеживать бизнес-цели и управлять инцидентами более эффективно. Данные, представленные на каждой панели мониторинга, будут более актуальными для своей целевой аудитории и будут зависеть от их интересов и потребностей.

Разработка надежной стратегии оповещения

Сделайте оповещения интерактивными, уведомляя учетные роли со стандартными описаниями и уровнями серьезности. Предоставьте сведения, которые сворачены из различных источников и отслеживают отклонения от бизнес-целей.

Активация оповещений только для инцидентов, требующих действий и стремятся к упреждающим оповещениям и предупреждениям, которые инициируют действия, прежде чем состояние понижения состояния становится сбоем. Хорошая система оповещений определяет действия и серьезность и предоставляет достаточно данных для четкости и цели. Операторы могут запускаться при исправлении без задержки.

Задача Компании Contoso

  • Azure Monitor используется для отправки оповещений в группу операций, когда что-то не так. Однако команда в настоящее время получает слишком много оповещений, которые являются неуместными, неясными или избыточными. Это приводит к усталости оповещений и влияет на производительность команды и приводит к тому, что некоторые важные оповещения не замечены.
  • Существуют также некоторые ситуации сбоя, которые могли бы быть запрещены или свернуты, если оповещение было отправлено, ожидая сбоя. Если команда лучше оповещала о ухудшении состояния до возникновения сбоев, эти ситуации могли быть избежать. Например, были случаи, когда задержки в процессе обработки запросов базы данных привели к сбоям. При устранении неполадок, команда замечает, что производительность обработки запросов снижается медленно с течением времени, ухудшаясь и хуже, пока она не приведет к полному сбою.

Применение подхода и результатов

  • Команда операций запускает инициативу по очистке всех оповещений с низким приоритетом, вызывающих усталость оповещений. Только критически важные и активные оповещения могут оставаться активными. Кроме того, команда проверяет (и улучшает по мере необходимости) оповещения, которые будут оставаться активными, чтобы убедиться, что они содержат достаточно контекста, чтобы позволить им принять необходимые действия по исправлению.
  • Кроме того, они принимают возможность определять новые упреждающие и практические оповещения, которые позволят им принимать меры перед сбоем. Например, они создают новое оповещение, чтобы уведомить базы данных сразу после того, как появится согласованное замедление производительности запросов к базе данных.
  • На следующем шаге команда рассматривает автоматизацию ответов на распространенные оповещения, например ситуацию с производительностью запросов к базе данных.

Проверьте свои знания

1.

Как Компания Contoso могла определить первопричину проблемы с пустыми страницами и универсальными ошибками, которые некоторые пользователи столкнулись?

2.

Какой из приведенных ниже способов проектирования панелей мониторинга?

3.

True или false: оповещения должны в основном быть информационными.