Большая компания – это компания, над которой не заходит солнце. Например, мировой агрегатор такси и доставки Uber.
В гостях как дома:
Карен Товмасян – Senior Engineer – Payments @ Uber и бессменный автор канала Человек и Машина.
О чём:
• Планируем выяснить, как всё-таки писать слово «инцидент»;
• Чем отличается инцидент от аварии, алёрта или бага;
• Что происходит в процессе починки, чем postmortem отличается от обычного отчёта от аварии;
• Всё это приправим небольшим количеством офигительных историй.
Полезные ссылки:
Мясные мировые инциденты, от которых я ору до сих пор:
Crowdstrike, который положил полмира и даже службу 911:
https://www.crowdstrike.com/wp-content/uploads/2024/08/Channel-File-291-Incident-Root-Cause-Analysis-08.06.2024.pdf
AWS Kinesis, или «Ребята, а что такое ulimit?»:
https://aws.amazon.com/message/11201
Как Linear потерял данные, хотя можно было чему-то научиться у GitLab:
https://linear.app/blog/linear-incident-on-jan-24th-2024
https://about.gitlab.com/blog/2017/02/10/postmortem-of-database-outage-of-january-31
Полезные материалы по управлению инцидентами и не только:
SRE Book первый, второй и третий:
https://sre.google/books
Что стоит обсуждать на ревью, а что нет:
https://surfingcomplexity.blog/2024/09/28/why-i-dont-like-discussing-action-items-during-incident-reviews
Доклад, который я буду рекламировать до пенсии и далее:
https://youtu.be/kSGiUGGu1aQ?si=gOV_BWVfAGrtOyaj