2 августа 2019

Зачем писать постмортемы и что делать, если опыт оказывается бесполезным

Доклады DevOpsConf

Leon Fayer из Teaching Strategies считает, что ни одно решение не может считаться работающим, пока не работает хотя бы для 1 млн. пользователей. 30 сентября он расскажет историю DevOps-трансформации в своей организации. Вернее, ту её часть, которая касается наследования устаревших систем. Мы узнаем:

  • как расставить приоритеты в задачах;
  • как внедрить Agile и работать с людьми;
  • что делать, если богатый опыт прошлых лет оказывается бесполезен. 

Leon уже выступал на наших конференциях. Расшифровку его доклада о стратегиях мониторинга в связке с бизнес-проблемами можно почитать на Хабре.

Если хотите адаптировать подход Infrastructure as code к своему проекту, но у вас нет времени, чтобы стать «YAML-гуру», приходите послушать Романа Бойко из AWS. Он расскажет о новом инструменте AWS Cloud Development Kit, который позволит описать инфраструктуру на уже знакомом языке (Python, TypeScript, JavaScript, Java). 

Александр Хаёров (Chainstack) знает, что атаки на инфраструктуру с контейнерами Docker, LXC или rkt могут быть катастрофичны, так как разделяют общее «хостовое ядро». В своём выступлении он расскажет о реальном масштабе этой проблемы и покажет несколько проектов, которые предоставляют полноценное ядро песочницы, в частности о gVisior. Прослушав доклад, вы поймёте, нужны ли в вашем проекте изолированные среды и как их можно получить.

DevOpsConf 2019 пройдёт 30 сентября и 1 октября в Москве. До 20 августа Программный комитет принимает заявки на доклады. Хотите поделиться опытом — решайтесь и присылайте тезисы. 12 тем уже приняты в программу конференции.

Зачем писать постмортемы?

Пять лет назад, когда в «Контуре» только начали собирать отчёты по авариям, самым сложным было убедить инженеров в том, что это необходимо. И, правда, зачем человеку, которые героически сражался с упавшим в ночи продом, заполнять кучу бумажек, после того, как проблема была устранена? 

С 2016 года в «Контуре» произошло более 1000 инцидентов разной степени эпичности. По каждому из них инженеры написали постмортемы — отчёты по авариям. Такое количество документации даёт возможность собирать статистику. Например, ребята знают, что 36% аварий вызвано некачественным релизом, а 14% — работами по обслуживанию железа в дата-центре. Это не просто цифры для отчётов начальству. Они помогают увидеть узкие места и улучшить систему на уровне разработки, менеджмента или эксплуатации.

О том, как его компания учится на авариях, рассказал Алексей Кирпичников, который с 2014 года внедряет в «Контуре» DevOps-подход. Расшифровку его доклада читайте на Хабре. 

На сегодня всё! До встречи!