podcast

Эпизод №8. Управление инцидентами в большой компании

01.12.2024
Listen to the episode on your favorite platforms:
  • Apple Podcasts
  • Yandex Music
  • Spotify
  • Звук
  • Castbox
  • Pocket Casts
  • ВКонтакте
  • SoundStream
  • Overcast
  • Castro
  • RadioPublic

Большая компания – это компания, над которой не заходит солнце. Например, мировой агрегатор такси и доставки Uber.

В гостях как дома:

Карен Товмасян – Senior Engineer – Payments @ Uber и бессменный автор канала Человек и Машина.

О чём:

• Планируем выяснить, как всё-таки писать слово «инцидент»;
• Чем отличается инцидент от аварии, алёрта или бага;
• Что происходит в процессе починки, чем postmortem отличается от обычного отчёта от аварии;
• Всё это приправим небольшим количеством офигительных историй.

Полезные ссылки:

Мясные мировые инциденты, от которых я ору до сих пор:

Crowdstrike, который положил полмира и даже службу 911:
https://www.crowdstrike.com/wp-content/uploads/2024/08/Channel-File-291-Incident-Root-Cause-Analysis-08.06.2024.pdf

AWS Kinesis, или «Ребята, а что такое ulimit?»:
https://aws.amazon.com/message/11201

Как Linear потерял данные, хотя можно было чему-то научиться у GitLab:
https://linear.app/blog/linear-incident-on-jan-24th-2024
https://about.gitlab.com/blog/2017/02/10/postmortem-of-database-outage-of-january-31

Полезные материалы по управлению инцидентами и не только:

SRE Book первый, второй и третий:
https://sre.google/books

Что стоит обсуждать на ревью, а что нет:
https://surfingcomplexity.blog/2024/09/28/why-i-dont-like-discussing-action-items-during-incident-reviews

Доклад, который я буду рекламировать до пенсии и далее:
https://youtu.be/kSGiUGGu1aQ?si=gOV_BWVfAGrtOyaj