← Все направления Облако и инфраструктура

Облако · 04

Надёжность как дисциплина.

SLO, error budgets, on-call rotations, postmortems и инфраструктура наблюдаемости, превращающая надёжность из чаяния в число, которое ваша команда может двигать.

Написать партнёру Все направления

§В этом направлении

01The problem we solve
02Что собираем
03Что получаете
04Стек, к которому тянемся
05Подходит
06Как идёт проект
07Как сотрудничать
08Common questions

§ 01The problem

Какую проблему решаем

Большинство работы над надёжностью — реактивная: кого-то paged, починили, написали postmortem, который никто не читает. Привносим SRE-практики, делающие надёжность измеримой и улучшаемой — SLO, error budgets, реагирование на инциденты как часы и инфраструктуру наблюдаемости, дающую инженерам уверенно дебажить продакшен.

§ 02Capabilities

Что собираем

01Определение SLO и error budgets под бизнес-результаты
02Наблюдаемость: логи, метрики, трейсы, профили — интегрированы, не silo
03Playbook'и реагирования на инциденты и on-call rotations
04Культура и процесс postmortem
05Программы chaos engineering и нагрузочного тестирования
06Roadmap надёжности с инженерными инвестициями
07Synthetic-мониторинг и proactive-алертинг
08Runbook'и, спроектированные под использование под давлением
09Планы burn-down хронической on-call боли

§ 03Deliverables

Что получаете

Задокументированные SLO и политика error-budget
Observability-стек, который вы можете расширять
Playbook реагирования на инциденты, обкатанный на вашей команде
Измеримое улучшение p99-латентности или доступности

§ 04Stack

Стек, к которому тянемся

Datadog · New Relic · Honeycomb

Grafana · Loki · Tempo · Mimir

OpenTelemetry

PagerDuty · Incident.io · Rootly

Nobl9 · Sloth

Grafana k6 · Gremlin

§ 05Ideal for

Подходит

→ Компаниям, чей on-call неустойчив
→ Инженерным лидерам, которые не могут ответить «насколько надёжна система?»
→ Продуктам, где простои имеют материальную бизнес-стоимость
→ Командам, внедряющим SRE-практики впервые

§ 06Process

Как идёт проект

01
Reliability-аудит
Текущая наблюдаемость, алертинг, on-call burden, процесс инцидентов. Письменный отчёт.
02
SLO-воркшоп
Определяем SLO под бизнес-результаты, согласовываем политику error-budget с руководством.
03
Наблюдаемость и реагирование
Стек телеметрии, дашборды, runbook'и, on-call rotation перестроены.
04
Обучение и передача
Tabletop-инциденты, реальный on-call shadowing, передача знаний.

§ 07Engagement

Как сотрудничать

Reliability-аудит

2 недели

Оценка с приоритизированными рекомендациями.

SRE Programme

8 — 16 недель

End-to-end построение SRE-практики.

Embedded SRE

3 — 12 месяцев

Сеньорные SRE-мощности внутри вашей команды, пока вы растите своих.

§ 08Common questions

Frequently asked.

01Нужна ли отдельная SRE-команда?

Часто нет. SRE-практики, применяемые вашими существующими инженерами, решают большинство проблем. Отдельные команды оправданы на определённом масштабе — скажем, когда.

02Какой observability-стек?

Datadog, если бюджет позволяет и хотите одного вендора. Self-hosted Grafana-стек, когда требует стоимость или резиденция данных. Honeycomb для команд, живущих в трейсах. Подберём под вашу команду.

Есть задача, которую стоит решить как следует?

Напишите, какой результат нужен. Мы честно скажем, во что это обойдётся — письменно, в течение недели.

Начать разговор

Надёжность как дисциплина.

Какую проблему решаем

Что собираем

Что получаете

Стек, к которому тянемся

Подходит

Как идёт проект

Reliability-аудит

SLO-воркшоп

Наблюдаемость и реагирование

Обучение и передача

Как сотрудничать

Reliability-аудит

SRE Programme

Embedded SRE

Frequently asked.

Есть задача, которую стоит решить как следует?