Question 1

Що таке SLI (Service Level Indicator) у SRE?

Accepted Answer

SLI (Service Level Indicator) — це кількісна метрика, яка вимірює конкретний аспект рівня сервісу, що надається користувачам. Типові SLI включають доступність (uptime), latency (час відповіді), error rate або throughput. Ці показники об'єктивно вимірюються системами monitoring і слугують основою для визначення SLO. Наприклад, SLI доступності може бути відсотком успішних HTTP-запитів (коди 2xx) від загальної кількості запитів.

Question 2

Яка основна різниця між SLO та SLA?

Accepted Answer

SLO (Service Level Objective) — це внутрішня ціль рівня сервісу, визначена командою для спрямування зусиль SRE, без юридичних наслідків. SLA (Service Level Agreement) — це формальний договір із клієнтом, що включає наслідки (відшкодування, штрафи) у разі недосягнення цілей. SLO зазвичай суворіший за SLA, щоб створити запас безпеки й уникнути порушень SLA. Наприклад, SLO 99,9% за SLA 99,5% дає запас безпеки.

Question 3

Що таке error budget у SRE?

Accepted Answer

Error budget — це прийнятна кількість збоїв або недоступності сервісу за певний період. Він обчислюється як різниця між 100% і SLO. Наприклад, за SLO 99,9% error budget становить 0,1% (приблизно 43 хвилини downtime на місяць). Цей error budget дозволяє балансувати між інноваціями та надійністю: поки бюджет залишається, команда може швидко розгортати нові функції. Якщо його вичерпано, фокус має зміститися на стабільність, а release слід відкласти.

Принципи SRE

Що таке SLI (Service Level Indicator) у SRE?

Відповідь

Яка основна різниця між SLO та SLA?

Відповідь

Що таке error budget у SRE?

Відповідь

Як обчислити залишковий error budget для сервісу?

Що робити, коли error budget сервісу вичерпано?

Інші теми співбесід DevOps

Контроль версій & Git

Основи Linux

Shell Scripting & Bash

Основи мереж

Основи Docker

Основи CI/CD

GitHub Actions

GitLab CI/CD

Jenkins

Основи Kubernetes

Networking Kubernetes

Kubernetes Просунутий

Ingress & API Gateway

Основи Terraform

Terraform Просунутий

Ansible & Configuration Management

Основи AWS

Основи Azure

Основи GCP

Моніторинг і Prometheus

Logging & ELK Stack

Alerting та Incident Response

Cloud Identity & Secrets

Безпека CI/CD пайплайнів

Helm & Kubernetes

Безпека Runtime та Cluster

Container Supply Chain Security

Service Mesh та Istio

GitOps & ArgoCD

Progressive Delivery

Розподілена спостережуваність

Disaster Recovery & Backup

Оптимізація продуктивності

Оптимізація витрат на хмару

Chaos Engineering

Platform Engineering

Опануй DevOps для наступної співбесіди