podcast

Инцидент-менеджмент: как тушить IT-пожары?

25.09.2024
Listen to the episode on your favorite platforms:
  • Apple Podcasts
  • Yandex Music
  • Spotify
  • Звук
  • Castbox
  • Pocket Casts
  • PlayerFM
  • ВКонтакте
  • Overcast
  • Castro
  • RadioPublic

Хорошо, когда система работает как часы — ни багов, ни аварий, ни проблем. К сожалению, в реальном мире так не бывает: баги стреляют на продакшене, диски в серверах останавливаются, а экскаваторы рвут кабели в датацентры. Не можешь победить — возглавь 🚨

И тут в дело вступает инцидент-менеджмент. То есть организация процесса обнаружения проблемы, поиска ее корня, устранения влияния и последствий.

Для того, чтобы все это сделать, нужно очень сильно постараться. Постоянно работать над инструментами обсервабилити и алертинга, готовить регламенты и обучать команду действиям при авариях, на уровне каждого домена иметь инструменты для полу-ручного решения тех или иных проблем. И чем лучше все это отстроено, тем меньше потерь понесет бизнес, когда что-то все же сломается. Об этом сегодня и хочется поговорить: как организовать инцидент-менедмент на уровне большой компании, чтобы влияние аварий на бизнес было минимальным? Разобраться в этом нам поможет Андрей Чупейкин, CTO блока платформы в Ozon.

Разберем в выпуске:

🚨Что такое инцидент-менеджмент? Какова его основная цель? Это просто система как тушить загоревшееся или нечто большее?

🚨Кто должен решать проблемы — тот, кто написал код или отдельная команда спасателей?

🚨Как координируется сам процесс решения инцидента? Какова структура команды для решения инцидентов? Какие роли в ней нужны и важны?

🚨Что делать, если проблема уже есть, но плана решения еще нет?

🚨Как понять, что пожар потушен?

🚨Как происходит процесс расследования и анализа корневой причины (root cause analysis) инцидентов?

Этот эпизод, как и весь сезон, выпускается при поддержке команды сервиса путешествий Туту (https://company.tutu.ru/). Ребята меняют опыт миллионов путешественников к лучшему с помощью технологий. Специальный гость от Туту — Андрей Борзов заместитель технического директора по эксплуатации. Расскажет о том, как роботы помогают решать инциденты.

Ведут Виктор Корейша (http://t.me/koreysha), руководитель направления Managed Services в Ozon, и Евгений Антонов (http://t.me/eantonov), ведущий технический менеджер в Yandex Infrastructure, автор канала Тимлид Очевидность (https://t.me/general_it_talks).

🎧Слушайте подкаст «Кода кода» в Яндекс музыке, Apple podcasts и много ещё где по ссылке https://kodakoda.mave.digital/ep-72