Question 1

SRE에서 SLI(Service Level Indicator)란 무엇인가요?

Accepted Answer

SLI(Service Level Indicator)는 사용자에게 제공되는 서비스 수준의 특정 측면을 측정하는 정량적 지표입니다. 일반적인 SLI에는 가용성(uptime), latency(응답 시간), error rate, throughput 등이 있습니다. 이러한 지표는 monitoring 시스템에 의해 객관적으로 측정되며 SLO를 정의하는 기반이 됩니다. 예를 들어 가용성 SLI는 전체 요청 대비 성공한 HTTP 요청(2xx 코드)의 비율이 될 수 있습니다.

Question 2

SLO와 SLA의 주요 차이점은 무엇인가요?

Accepted Answer

SLO(Service Level Objective)는 SRE 활동을 안내하기 위해 팀이 정의하는 내부 서비스 수준 목표이며 법적 결과가 없습니다. SLA(Service Level Agreement)는 목표가 충족되지 않을 경우의 결과(환불, 페널티)를 포함하는 고객과의 공식 계약입니다. SLO는 일반적으로 안전 버퍼를 만들고 SLA 위반을 피하기 위해 SLA보다 더 엄격하게 설정됩니다. 예를 들어 SLA 99.5%에 대해 SLO 99.9%는 여유 마진을 제공합니다.

Question 3

SRE에서 error budget이란 무엇인가요?

Accepted Answer

error budget은 일정 기간 동안 서비스의 허용 가능한 장애 또는 가용 불가 양입니다. 100%와 SLO의 차이로 계산됩니다. 예를 들어 SLO가 99.9%이면 error budget은 0.1%(월 약 43분의 downtime)입니다. 이 error budget은 혁신과 신뢰성의 균형을 맞출 수 있게 합니다. 예산이 남아 있는 한 팀은 새로운 기능을 빠르게 배포할 수 있습니다. 소진되면 안정성에 집중하고 release를 미뤄야 합니다.

SRE 원칙

SRE에서 SLI(Service Level Indicator)란 무엇인가요?

답변

SLO와 SLA의 주요 차이점은 무엇인가요?

답변

SRE에서 error budget이란 무엇인가요?

답변

서비스의 남은 error budget을 어떻게 계산하나요?

서비스의 error budget이 소진되면 어떻게 해야 하나요?

기타 DevOps 면접 주제

버전 관리 & Git

Linux 기초

Shell Scripting & Bash

네트워킹 기초

Docker 기초

CI/CD 기초

GitHub Actions

GitLab CI/CD

Jenkins

Kubernetes 기초

Kubernetes 네트워킹

Kubernetes 고급

Ingress & API Gateway

Terraform 기초

Terraform 고급

Ansible & Configuration Management

AWS 핵심

Azure 기초

GCP 기초

모니터링과 Prometheus

Logging & ELK Stack

알림 및 인시던트 대응

Cloud Identity & Secrets

CI/CD 파이프라인 보안

Helm & Kubernetes

런타임 및 클러스터 보안

Container Supply Chain Security

Service Mesh & Istio

GitOps & ArgoCD

Progressive Delivery

분산 옵저버빌리티

Disaster Recovery & Backup

성능 최적화

클라우드 비용 최적화

Chaos Engineering

Platform Engineering

다음 면접을 위해 DevOps을 마스터하세요