Зачем писать постмортемы и что делать, если опыт оказывается бесполезным
Доклады DevOpsConf
Leon Fayer из Teaching Strategies считает, что ни одно решение не может считаться работающим, пока не работает хотя бы для 1 млн. пользователей. 30 сентября он расскажет историю DevOps-трансформации в своей организации. Вернее, ту её часть, которая касается наследования устаревших систем. Мы узнаем:
- как расставить приоритеты в задачах;
- как внедрить Agile и работать с людьми;
- что делать, если богатый опыт прошлых лет оказывается бесполезен.
Leon уже выступал на наших конференциях. Расшифровку его доклада о стратегиях мониторинга в связке с бизнес-проблемами можно почитать на Хабре.
Если хотите адаптировать подход Infrastructure as code к своему проекту, но у вас нет времени, чтобы стать «YAML-гуру», приходите послушать Романа Бойко из AWS. Он расскажет о новом инструменте AWS Cloud Development Kit, который позволит описать инфраструктуру на уже знакомом языке (Python, TypeScript, JavaScript, Java).
Александр Хаёров (Chainstack) знает, что атаки на инфраструктуру с контейнерами Docker, LXC или rkt могут быть катастрофичны, так как разделяют общее «хостовое ядро». В своём выступлении он расскажет о реальном масштабе этой проблемы и покажет несколько проектов, которые предоставляют полноценное ядро песочницы, в частности о gVisior. Прослушав доклад, вы поймёте, нужны ли в вашем проекте изолированные среды и как их можно получить.
DevOpsConf 2019 пройдёт 30 сентября и 1 октября в Москве. До 20 августа Программный комитет принимает заявки на доклады. Хотите поделиться опытом — решайтесь и присылайте тезисы. 12 тем уже приняты в программу конференции.
Зачем писать постмортемы?
Пять лет назад, когда в «Контуре» только начали собирать отчёты по авариям, самым сложным было убедить инженеров в том, что это необходимо. И, правда, зачем человеку, которые героически сражался с упавшим в ночи продом, заполнять кучу бумажек, после того, как проблема была устранена?
С 2016 года в «Контуре» произошло более 1000 инцидентов разной степени эпичности. По каждому из них инженеры написали постмортемы — отчёты по авариям. Такое количество документации даёт возможность собирать статистику. Например, ребята знают, что 36% аварий вызвано некачественным релизом, а 14% — работами по обслуживанию железа в дата-центре. Это не просто цифры для отчётов начальству. Они помогают увидеть узкие места и улучшить систему на уровне разработки, менеджмента или эксплуатации.
О том, как его компания учится на авариях, рассказал Алексей Кирпичников, который с 2014 года внедряет в «Контуре» DevOps-подход. Расшифровку его доклада читайте на Хабре.