Школы

Рейтинг на основе отзывов, авторитетности и популярности

Подборки

Полезные и актуальные курсы, отобранные вручную

Site Reliability Engineering

Сложность
Сложность
Начинающий
Тип обучения
Тип обучения
Курс
Формат обучения
Формат обучения
С проверкой домашнего задания
Трудоустройство
Трудоустройство
Нет
Сертификат
Сертификат
Есть

Стоимость курса

90 000 ₽
Есть рассрочка

На интенсиве вы:

  • внедрите правки прямо в прод;
  • узнаете, как решать конкретные проблемы, связанные с надежностью сервиса;
  • поймете, какие метрики собирать и как это делать правильно;
  • научитесь быстро поднимать продакшн силами команды;
  • узнаете, как снизить ущерб от отказов в будущем.

Кому полезно

ЛЮДЯМ
SRE-инженером может стать как инженер эксплуатации, так и разработчик. На интенсиве вы будете много практиковаться, а полученные навыки и знания можно адаптировать и внедрить в любую сферу.
 
БИЗНЕСУ
SRE решает те же проблемы, что и DevOps: увеличивает скорость выхода новых фич и налаживает процессы в команде. Но основная задача SRE – обеспечить стабильность и надежность работы сервисов, исключая ситуации, когда пользователи жалуются на сбои, а у инженеров «графики зеленые».

В результате интенсива

Могу настроить:

  • мониторинг SRE-метрик (SLO, SLI, error budget) для своего сервиса. Понимаю как эти метрики выбрать;
  • мониторинг SRE-инфраструктурных сервисов. Умею опознавать и решать проблемы с инфраструктурой;
  • alerting и healthcheck;
  • разные методы деплоймента, знаю какие инструменты для этого существуют.

Могу организовать:

  • пожарную команду в случае инцидента, раздать роли коллегам и выступить лидером. Знаю, какие инцидент сервисы существуют;
  • надежные коммуникации между сервисами retry, timeout, circuit breaker.

Как проходит интенсив

  • ИЗУЧАЕМ ТЕОРИЮ
  • ЗНАКОМИМСЯ ВНУТРИ КОМАНДЫ И НАЛАЖИВАЕМ ВЗАИМОДЕЙСТВИЕ
  • РЕШАЕМ ПРАКТИЧЕСКИЕ КЕЙСЫ
  • ПОДВОДИМ ИТОГИ, РЕФЛЕКСИРУЕМ
  • ОБСУЖДАЕМ ОНБОРДИНГ SRE-ПОДХОДА В ВАШЕЙ КОМПАНИИ

Строим:
Наш учебный сайт состоит из нескольких микросервисов. Он агрегирует данные о сеансах, ценах и свободных местах со всех кинотеатров, показывает анонсы фильмов, дает выбрать кинотеатр, сеанс, зал и место, забронировать и оплатить билеты.

Мы сформулируем показатели SLO, SLI, SLA для этого сайта, разработаем архитектуру и инфраструктуру, которая их обеспечит, настроим мониторинг и алертинг.

 

Ломаем:
Внутренние и внешние факторы начинают «портить» SLO

Ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки приводят к тому, что SLO ухудшаются.

Разбираем устойчивость, error budget, практику тестирования, управление прерываниями и операционной нагрузкой.

 

Чиним:
incident response

Произошла авария. Сервис обработки платежей лег. Как действовать, чтобы восстановить работоспособность в минимальные сроки?

Организуем работу группы по ликвидации аварии: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Тренируемся работать под давлением в условиях предельно ограниченного времени.

 

Изучаем:

Cмотрим на сайт и инциденты с точки зрения SRE

Разбираем подход к сайту с точки зрения SRE. Анализируем инциденты (причины возникновения, ход устранения). Принимаем решение по их дальнейшему предотвращению: улучшаем мониторинг, меняем архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируем процессы. 

Что вы получите после обучения

Навыки
1
SRE
2
Мониторинг
3
Kubernetes
4
SLA
5
SLI
6
SLO
7
downstream
8
Resiliencе Engineering
9
HiPPO
10
upstream
11
Traffic Shielding
12
Health Checking

Школа

Учебный центр: обучение для инженеров и технических лидеров. 

Слёрм вырос из внутреннего обучения Southbridge, аутсорсера администрирования нагруженных проектов. В процессе обучения сотрудников появился учебный курс по Kubernetes, а потом базовый курс дополнился продвинутым, появились курсы DevOps, Docker, Ceph, SRE.

Задача Слёрма - передавать применимые на практике знания для IT-специалистов. Учим DevOps-инженеров и разработчиков от новичков до техлидов. 

Учим тому, в чём уверены сами.

Мы улучшаем IT-мир, создавая полезное образование для специалистов, и предпочитаем развиваться без оглядки на других, идти собственным путём.

Преподаватели

Архитектор в Yandex.Cloud

— На счету десятки выстроенных инфраструктур и сотни написанных пайплайнов CI/CD,
— Certified Kubernetes Administrator,
— Автор нескольких курсов по Kubernetes и DevOps,
— Регулярный докладчик на Российских и международных IT-конференциях.

TechLead SRE
 

— Тысячи выстроенных пайплайнов CI/CD
— Более 100 инсталляций Kubernetes в продакшен
— Автор нескольких курсов по DevOps и его внедрению

Эксперт в области высоких нагрузок
 

— Спикер Highload++ 2022
— Десятки успешных проектов по подъему нагрузки в США, Европе и России
— Серьезный опыт кризис-менеджмента и ведения инцидентов
— Регулярный докладчик на конференциях и митах

Программа курса

ДЕНЬ 1: установочная AMA-сессия

Обсудим цели и задачи курса, а также расскажем что такое SRE, распределим на команды.

Открытие 2 теоретических тем:

Тема 1: Мониторинг

  • Зачем нужен мониторинг
  • Перцентили
  • Alerting
  • Observability

Тема 2: Теория SRE

  • SLO, SLI, SLA
  • Durability
  • Error budget

ДЕНЬ 2: разбор практик и кейсов

Практика: Делаем базовый дашборд и настраиваем необходимые алерты

Практика: Добавляем на дашборд SLO/SLI + алерты

Практика: Первая нагрузка системы

Решение 1 кейса: зависимость downstream.

В большой системе существует много взаимозависимых сервисов, и не всегда они работают одинаково хорошо. Особенно обидно, когда с вашим сервисом порядок, а соседний, от которого вы зависите, периодически уходит в down.

Учебный проект окажется именно в таких условиях, а вы сделаете так, чтобы он все равно выдавал качество на максимально возможном уровне.

ДЕНЬ 3: AMA-сессия, ответы на вопросы

Открывается доступ к 2-му теоретическому модулю:

Решение проблем с окружением и архитектурой

Второй модуль построен вокруг решения двух кейсов: зависимость upstream и проблемы с архитектурой. Спикеры расскажут про управление инцидентами, правила для пожарной команды и работу с постмортерами (post mortem) и дадут шаблоны, которые вы сможете использовать в своей команде.

Тема 3: Управление инцидентами

  • Resiliencе Engineering
  • Как выстраивается пожарная бригада
  • Насколько ваша команда эффективна в инциденте
  • 7 правил для лидера инцидента
  • 5 правил для пожарного
  • HiPPO — highest paid person's opinion. Communications Leader

Тема 4: Инструменты варрума и алерт менеджмента.

Вest practiсe других компаний в организации инцидент-менеджмента.

ДЕНЬ 4: разбор практик и кейсов

Решение 2 кейса: зависимость upstream.

Одно дело, когда вы зависите от сервиса с низким SLO. Другое дело, когда ваш сервис является таковым для других частей системы. Так бывает, если критерии оценки не согласованы: например, вы отвечаете на запрос в течение секунды и считаете это успехом, а зависимый сервис ждёт всего 500 мск и уходит с ошибкой.

В кейсе обсудим важность согласования метрик и научимся смотреть на качество глазами клиента.

Решение 3 кейса: проблемы с базой данных.

База данных тоже может быть источником проблем. Например, если не следить за replication relay, то реплика устареет и приложение будет отдавать старые данные. Причём дебажить такие случаи особенно сложно: сейчас данные рассогласованы, а через несколько секунд уже нет, и в чём причина проблемы — непонятно.

Через кейс вы прочувствуете всю боль дебага и узнаете, как предотвращать подобные проблемы.

Практика: Пишем постмортем по предыдущему кейсу и разбираем его со спикерами.

ДЕНЬ 5: AMA-сессия, ответы на вопросы

AMA-сессия и ответы на вопросы по предыдущим темам.

Открывается доступ к 3-му теоретическому модулю:

Traffic shielding и канареечные релизы

В третьем модуле мы разберем кейс, посвященный проблеме с окружением (здесь будет подробный разбор Health Checking), а также поэтапно разберем, как внедрять SRE в компании и узнаем опыт компаний, в которых работают спикеры интенсива.

Тема 5: Health Checking

  • Health Check в Kubernetes
  • Жив ли наш сервис?
  • Exec probes
  • InitialDelaySeconds
  • Secondary Health Port
  • Sidecar Health Server
  • Headless Probe
  • Hardware Probe

Тема 6: Способы деплоймента

Тема 7: SRE онбординг проекта

В крупных компаниях нередко формируют отдельную команду SRE, которая берёт на поддержку сервисы других отделов. Но не каждый сервис готов к тому, чтобы его можно было взять на поддержку. Расскажем, каким требованиям он должен отвечать. А также спикеры поделяться опытом, как у них проходило внедрение SRE и на какие грабли они наступали.

ДЕНЬ 6: разбор практик и кейсов

Решение 4 кейса: проблема с окружением, билеты купить невозможно.

Задача Healthcheck — обнаружить неработающий сервис и заблокировать трафик к нему. И если вы думаете, что для этого достаточно сделать рутом запрос к сервису и получить ответ, то вы ошибаетесь: даже если сервис ответит, это не гарантирует его работоспособность — проблемы могут быть в окружении.

Через этот кейс вы научитесь настраивать корректный Healthcheck и не пускать трафик туда, где он не может быть обработан.

Подведение итогов

 

Рейтинг курса

3.1
Может быть интересно
Site Reliability Engineering
На сайт курса

Site Reliability Engineering

Курс находится на модерации. Данные могут быть неактуальны.