Уменьшение влияния человеческого фактора на инфраструктуру компанииИнфраструктура как код

Программный комитет ещё не принял решения по этому докладу
Александр Конюков
CIAN

В админстве с 2003 года. Участвовал в создании Linux Users Group в Волгограде. Занимался информатизацией Волгоградской области на позициях от исполнителя до реализации федеральных проектов. Параллельно занимаюсь разработкой пет-проджектов, сейчас это в основном Python. Последние 3 года в Москве, год в ЦИАНе.

Тезисы

==Механизм Postmortems==
- Как было совсем давно 
- Переходной этап
- SLA который не совсем SLA
- Как сейчас и какой положительный эффект это нам дало, а именно:
- Робот который следит за тем что у всех задач в эпике постмортема (FAIL) (с высшим приоритетом) стоит спринт 
- Всегда понятно кто сейчас занимается задачами по FAIL и понятны сроки решения задач
- Проставление тегов компонентов позволяет понять самые болезненные компоненты 
- Разделили ошибки те, который зависят и не зависят от человеческого фактора. 

==Автоматизация инфраструктуры==

Как результат такой системы постмортемов мы породили ряд проектов, которые призваны уменьшить влияние кривых рук на инфраструктуру

- Flow выкладки конфигов инфраструктурных компонентов ( начали с конфигов nginx  на фронтах )
- Написание различных тестов (юнит, интеграционные) по каждому прошлому FAIL для каждого компонента ( рассказываем как запускаем, как анализируем ) 
- Постулат  - не наступать на одни и те же грабли, то есть заниматься регрессионным тестированием.
- IaaC - оркестрация всех инфраструктурных компонентов с помощью saltstack + git ( salt: как было,  как есть, как хотим ) 
- Автоматизация рутинных действий ( для уменьшения ошибок во время форс мажоров и в рантайме 
- Авто-обнаружение серверов и сервисов на них в Prometheus. 

Логирование и мониторинг
,
Управление конфигурацией
,
Менеджмент в эксплуатации

Другие доклады секции Инфраструктура как код