SRE - путь к 99,99% и выше

Цифровые иммунные системы и инженерия надёжности. Хаос инжиниринг

Логирование и мониторинг
Технологии отказоустойчивости и катастрофоустойчивости, бэкапы
Управление изменениями
Управление инцидентами
Observability в enterprise
Надёжность продакшена
Логи, метрики, ошибки
Автоматизация разработки, доставки, эксплуатации
DevOps / SRE

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

SRE, DevOps, Support,

Тезисы

Мы расскажем, как встать на правильный путь по достижению высокой стабильности, надежности на уровне. 99.99% и выше

Soft skills
- Построение сопровождения (SRE)
- Выстраиваивание процессов взаимодействия с командой развития
- Подготовка документации опытной и промышленной эксплуатации
- Настройка, подключение и развитие системы мониторинга, журналирования, аудита.

МЕНЕДЖЕР:
-Подготовка мотивированных предложений и замечаний по результатам анализа методик испытания, самих испытаний, а также сопроводительных документов, обеспечивающих корпоративный релизный процесс.
-Календарное планирование ресурсов в приоритетных задачах (Project Management)
-Анализ и административный контроль реализации календарных планов, в декомпозированных задачах (Project Management)
-Подготовка экспертных заключений на статус прогресса проекта для проектного комитета (Project Management)
-Подготовка экспертных заключений по прогнозам прогресса проекта для проектного комитета (Project Management)
-Структурирование информации в "ветке" Confluence (Систематизация и структурирование информации)
-Написание статей Confluence
-Анализ методологии корпоративных документов для поиска мотивировочных аргументов (релизный процесс)
-Взаимодействие с владельцами ИС по формированию документации Информационной Системы, таких как, Руководство Администратора и Руководство Пользователей
-Развитие шаблонов РА и РП, до вида пригодного и полезного для практического использования
-Взаимодействие с владельцами ИС по соблюдению вехи релизного процесса, не игнорируя его этапы и не "срезая углы" процедур
-Координация подразделений и смежных команд при запуске новых ферм, на этапе предпромышленного и промышленного контура
-Взаимодействие с подразделениями по вопросам совершенствования соответствия промышленного и тестовых стендов;
-Наставничество новобранцев, с целью успешной адаптации в коллективе и освоения ИС

Hard skills
- Linux
- RHEL
- Ansible
- Playbook
- kubernetes
- Kibana
- ElasticSearch
- Настройка Журналирования
- Настройка мониторинга
- Prometheus
- Grafana
- zabbix
- Обработка заявок, инцидентов
- Jira
- Agile
- Планирование
- OpenShift
- Confluence
- ServiceManager (hpsm)
- kafka, nginx, tomcat, postgresql

Видео