
Principes SRE
SLIs, SLOs, SLAs, error budgets, toil reduction, incident management, on-call, blameless postmortems
1Qu'est-ce qu'un SLI (Service Level Indicator) en SRE ?
Qu'est-ce qu'un SLI (Service Level Indicator) en SRE ?
Réponse
Un SLI (Service Level Indicator) est une métrique quantitative qui mesure un aspect spécifique du niveau de service fourni aux utilisateurs. Les SLIs typiques incluent la disponibilité (uptime), la latence (temps de réponse), le taux d'erreur ou le débit. Ces indicateurs sont mesurés de manière objective par des systèmes de monitoring et servent de base pour définir les SLOs. Par exemple, un SLI de disponibilité pourrait être le pourcentage de requêtes HTTP réussies (codes 2xx) sur le total des requêtes.
2Quelle est la différence principale entre un SLO et un SLA ?
Quelle est la différence principale entre un SLO et un SLA ?
Réponse
Un SLO (Service Level Objective) est un objectif interne de niveau de service défini par l'équipe pour guider les efforts SRE, sans conséquences légales. Un SLA (Service Level Agreement) est un contrat formel avec le client qui inclut des conséquences (remboursements, pénalités) si les objectifs ne sont pas atteints. Le SLO est généralement plus strict que le SLA pour créer un buffer de sécurité et éviter les violations de SLA. Par exemple, un SLO de 99.9% avec un SLA de 99.5% donne une marge de manœuvre.
3Qu'est-ce qu'un error budget en SRE ?
Qu'est-ce qu'un error budget en SRE ?
Réponse
Un error budget est la quantité acceptable de défaillance ou d'indisponibilité d'un service sur une période donnée. Il se calcule comme la différence entre 100% et le SLO. Par exemple, avec un SLO de 99.9%, l'error budget est de 0.1% (soit environ 43 minutes de downtime par mois). Cet error budget permet d'équilibrer innovation et fiabilité : tant qu'il reste du budget, l'équipe peut déployer de nouvelles fonctionnalités rapidement. S'il est épuisé, il faut se concentrer sur la stabilité et repousser les releases.
Comment calculer l'error budget restant pour un service ?
Que faire lorsque l'error budget d'un service est épuisé ?
+21 questions d'entretien
Autres sujets d'entretien DevOps
Contrôle de version & Git
Fondamentaux Linux
Shell Scripting & Bash
Bases du Networking
Fondamentaux Docker
Fondamentaux CI/CD
GitHub Actions
GitLab CI/CD
Jenkins
Les bases de Kubernetes
Networking Kubernetes
Kubernetes Avancé
Ingress & API Gateway
Les bases de Terraform
Terraform Avancé
Ansible & Configuration Management
AWS Essentiels
Fondamentaux Azure
Fondamentaux GCP
Monitoring & Prometheus
Logging & ELK Stack
Alerting & Incident Response
Cloud Identity & Secrets
Sécurité Pipelines CI/CD
Helm & Kubernetes
Sécurité Runtime & Cluster
Container Supply Chain Security
Service Mesh & Istio
GitOps & ArgoCD
Progressive Delivery
Observabilité Distribuée
Disaster Recovery & Backup
Optimisation des Performances
Optimisation des Coûts Cloud
Chaos Engineering
Platform Engineering
Maîtrise DevOps pour ton prochain entretien
Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.
Commencer gratuitement