Prometheus vs Grafana vs Datadog āđāļāļāļĩ 2026: āđāļāļĢāļĩāļĒāļāđāļāļĩāļĒāļāļĢāļ°āļāļ Monitoring āđāļĨāļ°āļāļģāļāļēāļĄāļŠāļąāļĄāļ āļēāļĐāļāđ DevOps
āđāļāļĢāļĩāļĒāļāđāļāļĩāļĒāļ Prometheus, Grafana āđāļĨāļ° Datadog āļŠāļģāļŦāļĢāļąāļ monitoring āđāļāļāļĩ 2026 āļāļĢāļāļāļāļĨāļļāļĄāļŠāļāļēāļāļąāļāļĒāļāļĢāļĢāļĄ, āļ āļēāļĐāļē query, alerting, āļĢāļēāļāļē TCO, Kubernetes monitoring āđāļĨāļ°āļāļģāļāļēāļĄāļŠāļąāļĄāļ āļēāļĐāļāđāļāļēāļ DevOps āļāđāļēāļ observability

āļāļēāļĢāđāļāļĢāļĩāļĒāļāđāļāļĩāļĒāļāļĢāļ°āļŦāļ§āđāļēāļ Prometheus, Grafana āđāļĨāļ° Datadog āđāļāđāļāļŦāļāļķāđāļāđāļāļŦāļąāļ§āļāđāļāļāļĩāđāļāļāļāđāļāļĒāļāļĩāđāļŠāļļāļāđāļāļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļāđāļāļēāļāļāļģāđāļŦāļāđāļ DevOps āđāļĨāļ° SRE āļāļēāļĢāļāļģāļāļ§āļēāļĄāđāļāđāļēāđāļāļŠāļāļēāļāļąāļāļĒāļāļĢāļĢāļĄ āļāļļāļāđāļāđāļ āđāļĨāļ°āļāđāļāđāļĨāļāđāļāļĨāļĩāđāļĒāļāļāļāļāđāļāđāļĨāļ°āđāļāļĢāļ·āđāļāļāļĄāļ·āļāđāļŠāļāļāđāļŦāđāļāļđāđāļŠāļąāļĄāļ āļēāļĐāļāđāđāļŦāđāļāļāļķāļāļāļĢāļ°āļŠāļāļāļēāļĢāļāđāļāļĢāļīāļāđāļāļāļēāļĢāļāļģāļāļēāļ āđāļĄāđāđāļāđāđāļāļĩāļĒāļāļāļ§āļēāļĄāļĢāļđāđāļāļēāļāļāļģāļĢāļēāđāļāđāļēāļāļąāđāļ āļāļāļāļ§āļēāļĄāļāļĩāđāļ§āļīāđāļāļĢāļēāļ°āļŦāđāļāļ§āļēāļĄāđāļāļāļāđāļēāļāđāļāđāļāļīāļāļĨāļķāļāļāļąāđāļāļāđāļēāļāđāļāļāļāļīāļāđāļĨāļ°āļāđāļēāļāļāđāļāļāļļāļ āļāļĢāđāļāļĄāļĢāļ§āļāļĢāļ§āļĄāļāļģāļāļēāļĄāļŠāļąāļĄāļ āļēāļĐāļāđāļāļĩāđāļāļđāļāļāļēāļĄāļāđāļāļĒāđāļāļāļĩ 2026
Prometheus āļāļ·āļ engine āļŠāļģāļŦāļĢāļąāļāđāļāđāļāļĢāļ§āļāļĢāļ§āļĄāđāļĨāļ°āļāļąāļāđāļāđāļ metrics āļŠāđāļ§āļ Grafana āļāļ·āļ layer āļŠāļģāļŦāļĢāļąāļ visualization āđāļĨāļ° dashboarding āđāļĨāļ° Datadog āļāļ·āļāđāļāļĨāļāļāļāļĢāđāļĄ observability āđāļāļ SaaS āļāļĩāđāļāļąāļāļāļēāļĢāļāļĢāļāļ§āļāļāļĢ āđāļāļĢāļ·āđāļāļāļĄāļ·āļāļāļąāđāļāļŠāļēāļĄāđāļāđāļāļąāļāļŦāļēāļāļĩāđāđāļāļāļāđāļēāļāļāļąāļ āđāļĨāļ°āđāļāļŦāļĨāļēāļĒāļŠāļāļēāļāļāļēāļĢāļāđāļāļģāļāļēāļāđāļŠāļĢāļīāļĄāļāļķāđāļāļāļąāļāđāļĨāļ°āļāļąāļāļĄāļēāļāļāļ§āđāļēāļāļĩāđāļāļ°āđāļāđāļāļāļąāļāļāļąāļāđāļāļĒāļāļĢāļ
āļŠāļāļēāļāļąāļāļĒāļāļĢāļĢāļĄāđāļĨāļ° Data Model: āđāļāđāļĨāļ°āđāļāļĢāļ·āđāļāļāļĄāļ·āļāļāļąāļāļāļēāļĢ Metrics āļāļĒāđāļēāļāđāļĢ
āļāļ§āļēāļĄāđāļāļāļāđāļēāļāļāđāļēāļāļŠāļāļēāļāļąāļāļĒāļāļĢāļĢāļĄāļĢāļ°āļŦāļ§āđāļēāļāđāļāļĢāļ·āđāļāļāļĄāļ·āļāļāļąāđāļāļŠāļēāļĄāļĄāļĩāļĨāļąāļāļĐāļāļ°āđāļāđāļāļāļ·āđāļāļāļēāļ āđāļĨāļ°āļāļđāđāļŠāļąāļĄāļ āļēāļĐāļāđāļĄāļąāļāļāļąāđāļāļāļģāļāļēāļĄāđāļāļŦāļąāļ§āļāđāļāļāļĩāđāđāļāļ·āđāļāļāļĢāļ°āđāļĄāļīāļāļāļ§āļēāļĄāđāļāđāļēāđāļāđāļāļīāļāļĨāļķāļāļāļāļāļāļđāđāļŠāļĄāļąāļāļĢ
Prometheus āđāļāđāđāļĄāđāļāļĨāđāļāļ pull-based āļāļĨāđāļēāļ§āļāļ·āļāļāļ°āļāļģāļāļēāļĢ scrape HTTP endpoint (āđāļāļĒāļāļąāđāļ§āđāļāļāļ·āļ /metrics) āļāļēāļĄāļāđāļ§āļāđāļ§āļĨāļēāļāļĩāđāļāļģāļŦāļāļāđāļ§āđ āđāļĨāđāļ§āļāļąāļāđāļāđāļāļāđāļāļĄāļđāļĨ time-series āđāļāļāļēāļāļāđāļāļĄāļđāļĨ TSDB āđāļāļ local āļāļĩāđāļāļāļāđāļāļāļĄāļēāđāļāļāļēāļ° time series āđāļāđāļĨāļ°āļāļąāļ§āļāļđāļāļĢāļ°āļāļļāļāđāļ§āļĒāļāļ·āđāļ metric āđāļĨāļ°āļāļļāļāļāļāļ key-value label āđāļ Prometheus 3.0 (āđāļāļīāļāļāļąāļ§āđāļĄāļ·āđāļāđāļāļ·āļāļāļāļĪāļĻāļāļīāļāļēāļĒāļ 2024) native histograms āđāļāđāļĢāļąāļāļŠāļāļēāļāļ° stable āđāļāđāļ§āļāļĢāđāļāļąāļ 3.8 āļāļēāļĢāļĢāļąāļāļāđāļāļĄāļđāļĨāļāđāļēāļ OTLP āļāļĨāļēāļĒāđāļāđāļāļāļĩāđāļāļāļĢāđ built-in āđāļĨāļ° Remote Write 2.0 āļāđāļ§āļĒāļāļĢāļąāļāļāļĢāļļāļ federation āļĢāļ°āļŦāļ§āđāļēāļ cluster
Grafana āđāļĄāđāđāļāđāļāļģāļŦāļāđāļēāļāļĩāđāđāļāđāļāļĢāļ§āļāļĢāļ§āļĄāļŦāļĢāļ·āļāļāļąāļāđāļāđāļ metrics āđāļāđāđāļāļ·āđāļāļĄāļāđāļāļāļąāļ data source āļāđāļēāļ āđ āđāļĄāđāļ§āđāļēāļāļ°āđāļāđāļ Prometheus, Loki, Tempo, InfluxDB, Elasticsearch āđāļĨāļ°āļāļ·āđāļ āđ āļāļĩāļāļāļ§āđāļē 100 āļāļąāļ§ āļāļēāļāļāļąāđāļ render dashboard āļāļēāļāļāđāļāļĄāļđāļĨāđāļŦāļĨāđāļēāļāļąāđāļ Grafana Labs āļĒāļąāļāđāļāđāļāļāļđāđāļāļđāđāļĨ Mimir (āļŠāļģāļŦāļĢāļąāļāļāļąāļāđāļāđāļ metrics āļĢāļ°āļĒāļ°āļĒāļēāļ§), Loki (āļŠāļģāļŦāļĢāļąāļāļĢāļ§āļāļĢāļ§āļĄ log) āđāļĨāļ° Tempo (āļŠāļģāļŦāļĢāļąāļ distributed tracing) āļāļķāđāļāđāļĄāļ·āđāļāļĢāļ§āļĄāļāļąāļāļāļ°āđāļāđāļ observability stack āđāļāļ open-source āļāļĢāļāļ§āļāļāļĢ Grafana āđāļ§āļāļĢāđāļāļąāļ 13 āļāļĩāđāđāļāļīāļāļāļąāļ§āđāļāđāļāļ·āļāļāļāļĪāļĐāļ āļēāļāļĄ 2026 āļĄāļēāļāļĢāđāļāļĄāđāļāļĢāļ·āđāļāļāļĄāļ·āļ observability-as-code, Git Sync āļŠāļģāļŦāļĢāļąāļ dashboard āđāļĨāļ° SQL Expressions āļŠāļģāļŦāļĢāļąāļ query āļāđāļēāļĄāđāļŦāļĨāđāļāļāđāļāļĄāļđāļĨ
Datadog āļāļģāļāļēāļāđāļāļ push-based āđāļāļĢāļđāļāđāļāļ SaaS āđāļāļĒ agent āļāļĩāđāļāļīāļāļāļąāđāļāļāļ host āļāļ°āļŠāđāļ metrics, log āđāļĨāļ° trace āđāļāļĒāļąāļ cloud backend āļāļāļ Datadog āļāļļāļāļāļĒāđāļēāļāļāļąāđāļāđāļāđāļāļēāļĢāļĢāļąāļāļāđāļāļĄāļđāļĨ āļāļēāļĢāļāļąāļāđāļāđāļ āļāļēāļĢ query āļāļēāļĢāđāļāđāļāđāļāļ·āļāļ āđāļāļāļāļāļķāļ dashboard āļāļģāļāļēāļāļāļĒāļđāđāļ āļēāļĒāđāļāđāļāļĨāļāļāļāļĢāđāļĄāđāļāļĩāļĒāļ§āļāļĩāđāļāļąāļāļāļēāļĢāđāļŦāđāļāļąāđāļāļŦāļĄāļ Watchdog ML engine āļāļģāļāļēāļĢāļāļĢāļ§āļāļāļąāļ anomaly āđāļāļĒāļāļąāļāđāļāļĄāļąāļāļīāđāļāļĒāđāļĄāđāļāđāļāļāļāļąāđāļāļāđāļē threshold āļāđāļ§āļĒāļāļāđāļāļ
# prometheus.yml - Pull-based scrape configuration
global:
scrape_interval: 15s
evaluation_interval: 15s
scrape_configs:
- job_name: 'api-server'
kubernetes_sd_configs:
- role: pod
relabel_configs:
- source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
action: keep
regex: true
- source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_port]
action: replace
target_label: __address__
regex: (.+)
replacement: ${1}:${2}āđāļāļĨāđ YAML āļāļĩāđāđāļŠāļāļ pull model āļāļāļ Prometheus āļāļķāđāļāļāļģāļāļēāļĢāļāđāļāļŦāļē Kubernetes pod āļāđāļēāļ service discovery āđāļĨāđāļ§ scrape endpoint /metrics āļāļāļāđāļāđāļĨāļ° pod āļāļļāļ 15 āļ§āļīāļāļēāļāļĩ
PromQL vs Datadog Query Language: āđāļ§āļĒāļēāļāļĢāļāđāđāļĨāļ°āļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļ
āļ āļēāļĐāļē query āđāļāđāļāļŦāļąāļ§āļāđāļāļāļĩāđāļāļđāļāļāļēāļĄāļāđāļāļĒāđāļāļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļāđ āļāļđāđāļŠāļĄāļąāļāļĢāļāļ§āļĢāđāļŠāļāļāļāļ§āļēāļĄāļāļģāļāļēāļāđāļāļāļĒāđāļēāļāļāđāļāļĒāļŦāļāļķāđāļāļ āļēāļĐāļē āđāļĨāļ°āļŠāļēāļĄāļēāļĢāļāļāļāļīāļāļēāļĒāļāđāļāđāļĨāļāđāļāļĨāļĩāđāļĒāļāļĢāļ°āļŦāļ§āđāļēāļāļāļąāđāļāļŠāļāļāđāļāđ
PromQL (Prometheus Query Language) āđāļāđāļāļ āļēāļĐāļēāļĄāļēāļāļĢāļāļēāļāļŠāļģāļŦāļĢāļąāļ metrics query āđāļ ecosystem āļāļāļ Prometheus āđāļĨāļ° Grafana āļĢāļāļāļĢāļąāļ instant vector, range vector, aggregation operator āđāļĨāļ° recording rule
# Request rate per service over 5 minutes
rate(http_requests_total{job="api-server"}[5m])
# 99th percentile latency using native histograms
histogram_quantile(0.99, rate(http_request_duration_seconds[5m]))
# Error rate as percentage
sum(rate(http_requests_total{status=~"5.."}[5m]))
/ sum(rate(http_requests_total[5m])) * 100
# Predict disk full in 4 hours using linear regression
predict_linear(node_filesystem_avail_bytes[1h], 4 * 3600) < 0āļ āļēāļĐāļē query āļāļāļ Datadog āđāļāđāđāļ§āļĒāļēāļāļĢāļāđāļāļĩāđāđāļāļāļāđāļēāļāļāļāļāđāļ āđāļāļĒāļŠāļĢāđāļēāļāļāļķāđāļāļāļēāļāļāļąāļāļāđāļāļąāļāđāļĨāļ° scoping
# Equivalent request rate in Datadog
sum:http.requests{service:api-server}.as_rate()
# Anomaly detection (Watchdog ML - no equivalent in PromQL)
anomaly(avg:system.cpu.user{service:api-server}, 'agile', 3)
# Forecast query
forecast(avg:system.disk.free{host:web-01}, 'linear', 1)PromQL āļĄāļĩāļāļ§āļēāļĄāļĒāļ·āļāļŦāļĒāļļāđāļāļŠāļđāļāļāļ§āđāļēāļŠāļģāļŦāļĢāļąāļāļāļēāļĢāļ§āļīāđāļāļĢāļēāļ°āļŦāđāđāļāļ ad-hoc āđāļāļāļāļ°āļāļĩāđāļ āļēāļĐāļē query āļāļāļ Datadog āđāļĨāļāļāļ§āļēāļĄāļĒāļ·āļāļŦāļĒāļļāđāļāļāļēāļāļŠāđāļ§āļāļāļąāļāļāļąāļāļāđāļāļąāļ ML āļāļĩāđāļĄāļēāļāļĢāđāļāļĄāđāļāđāļāļēāļ āđāļāđāļ anomaly() āđāļĨāļ° forecast() āļāļķāđāļāļŦāļēāļāđāļāđ Prometheus stack āļāļ°āļāđāļāļāļāļķāđāļāļāļēāđāļāļĢāļ·āđāļāļāļĄāļ·āļāļ āļēāļĒāļāļāļ
āļāļĨāļĒāļļāļāļāđāļāļēāļĢāđāļāđāļāđāļāļ·āļāļ: Rules-Based vs ML-Powered Detection
āļāļĢāļąāļāļāļēāļāļēāļĢāđāļāđāļāđāļāļ·āļāļāļĄāļĩāļāļ§āļēāļĄāđāļāļāļāđāļēāļāļāļĒāđāļēāļāļāļąāļāđāļāļāļĢāļ°āļŦāļ§āđāļēāļāđāļāļĢāļ·āđāļāļāļĄāļ·āļāđāļŦāļĨāđāļēāļāļĩāđ āđāļĨāļ°āļāļēāļĢāļāļģāļāļ§āļēāļĄāđāļāđāļēāđāļāļāļ§āļēāļĄāđāļāļāļāđāļēāļāļāļĩāđāđāļŠāļāļāļāļķāļāļāļ§āļēāļĄāļāļĢāđāļāļĄāļāđāļēāļ operational āđāļāļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļāđ
Prometheus Alertmanager āļāļĢāļ°āđāļĄāļīāļ rule āļāļēāļĄāļāđāļ§āļāđāļ§āļĨāļēāļāļĩāđāļāļģāļŦāļāļ āđāļĨāđāļ§āļŠāđāļ alert āļāđāļēāļ pipeline āļāļĩāđāļāļąāđāļāļāđāļēāđāļāđ āļāļķāđāļāļĢāļāļāļĢāļąāļāļāļąāđāļ grouping, silencing āđāļĨāļ° inhibition
# alert-rules.yml - Prometheus alerting rules
groups:
- name: api-server-alerts
rules:
- alert: HighErrorRate
expr: |
sum(rate(http_requests_total{status=~"5..",job="api-server"}[5m]))
/ sum(rate(http_requests_total{job="api-server"}[5m])) > 0.05
for: 5m
labels:
severity: critical
annotations:
summary: "API error rate above 5% for 5 minutes"
runbook: "https://wiki.internal/runbooks/high-error-rate"
- alert: PodMemoryPressure
expr: |
container_memory_working_set_bytes{namespace="production"}
/ container_spec_memory_limit_bytes{namespace="production"} > 0.9
for: 10m
labels:
severity: warningāđāļāļ§āļāļēāļāļāļĩāđāļāļģāļŦāļāļāđāļŦāđāļāļđāđāļāļđāđāļĨāļĢāļ°āļāļāļāđāļāļāļāļąāđāļ threshold āļāļĒāđāļēāļāļāļąāļāđāļāļ āļāđāļāļāļĩāļāļ·āļāļĄāļĩāļāļ§āļēāļĄāđāļāļĢāđāļāđāļŠāđāļāđāļĄāļāļĩāđ āđāļāļĢāļēāļ°āļāļļāļ alert āļĄāļĩ expression āļāļĩāđāļŠāļēāļĄāļēāļĢāļāļāļĢāļ§āļāļŠāļāļāđāļāđ āļāđāļāđāļŠāļĩāļĒāļāļ·āļāļāļąāļāļŦāļē threshold fatigue āļāļķāđāļāļāđāļēāļāļāļāļĩāđāļĄāļąāļāļāđāļāļāļāļĢāļąāļāļāļēāļĄāļĪāļāļđāļāļēāļĨāļŦāļĢāļ·āļāļĢāļđāļāđāļāļāļāļēāļĢāđāļāđāļāļēāļ
Grafana Alerting (āļĢāļ§āļĄāđāļāđāļāļĢāļ°āļāļāđāļāļĩāļĒāļ§āļāļąāđāļāđāļāđ Grafana 12 āđāļāđāļāļāđāļāđāļ) āļāļĢāļ°āđāļĄāļīāļ query āļāļēāļ data source āļāļĩāđāđāļāļ·āđāļāļĄāļāđāļāļāļļāļāļāļąāļ§ āđāļĨāļ°āļĢāļāļāļĢāļąāļ multi-dimensional alert āļāļĢāđāļāļĄ notification policy āļāļĩāđāļĒāļ·āļāļŦāļĒāļļāđāļ
Datadog Monitors āļāļŠāļĄāļāļŠāļēāļ static threshold āđāļāđāļēāļāļąāļ anomaly, outlier āđāļĨāļ° forecast monitor āļāļĩāđāļāļąāļāđāļāļĨāļ·āđāļāļāļāđāļ§āļĒ ML āđāļāļĒ Watchdog āļāļ°āļāļĢāļ§āļāļāļąāļ performance anomaly āđāļāļĒāļāļąāļāđāļāļĄāļąāļāļīāđāļāļĒāđāļĄāđāļāđāļāļāļŠāļĢāđāļēāļ rule āļāđāļ§āļĒāļāļāđāļāļ āļ§āļīāļāļĩāļāļĩāđāļĨāļāļ āļēāļĢāļ°āļāļēāļĢāļāļąāđāļāļāđāļē āđāļāđāđāļĨāļāļĄāļēāļāđāļ§āļĒāļāļ§āļēāļĄāđāļāļĢāđāļāđāļŠāļāļĩāđāļĨāļāļĨāļāđāļāļāļĢāļĢāļāļ°āļāļēāļĢāļāļĢāļ§āļāļāļąāļ
āļĢāļēāļāļēāđāļĨāļ° Total Cost of Ownership āđāļāļāļĩ 2026
āđāļĢāļ·āđāļāļāļĢāļēāļāļēāđāļāđāļāļāļąāļāļāļąāļĒāļāļĩāđāļāļēāļāđāļāļāļēāļĢāđāļĨāļ·āļāļāđāļāļĢāļ·āđāļāļāļĄāļ·āļāđāļāļŠāļāļēāļāļāļēāļĢāļāđāļāļĢāļīāļ āđāļĨāļ°āļĄāļąāļāļāļđāļāļāļēāļĄāđāļāļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļāđāđāļāļĩāđāļĒāļ§āļāļąāļ system design āļāļēāļĢāļāļģāļāļ§āļēāļĄāđāļāđāļēāđāļāđāļāļĢāļāļŠāļĢāđāļēāļāļāđāļāļāļļāļāđāļŠāļāļāļāļķāļāļāļ§āļēāļĄāļāļĢāļ°āļŦāļāļąāļāļāđāļēāļāļāļļāļĢāļāļīāļāļāļāļāļāļđāđāļŠāļĄāļąāļāļĢ
| Dimension | Prometheus + Grafana | Datadog | |-----------|---------------------|--------| | License | āļāļĢāļĩ (AGPL / Apache 2.0) | $15-31/host/āđāļāļ·āļāļ (āļŠāļąāļāļāļēāļĢāļēāļĒāļāļĩ) | | Metrics storage | āļāļąāļāļāļēāļĢāđāļāļ (Mimir/Thanos) | āļĢāļ§āļĄāļāļĒāļđāđāđāļāđāļāđāļāđāļāļ āļāļīāļāļĢāļēāļāļēāļāļēāļĄ retention | | Log management | Loki (self-hosted) | $0.10/GB āļāļĩāđ ingest + indexing | | APM / Traces | Tempo (self-hosted) | $31/host/āđāļāļ·āļāļ | | Infrastructure cost | Compute + storage āļŠāļģāļŦāļĢāļąāļ stack āļāļąāđāļāļŦāļĄāļ | āđāļĄāđāļĄāļĩ (SaaS) | | Operational overhead | āļŠāļđāļ (āļāļąāļāđāļāļĢāļ, scaling, HA) | āļāđāļāļĒāļĄāļēāļ | | āļāđāļēāđāļāđāļāđāļēāļĒāļĢāļēāļĒāļāļĩāđāļāļĒāļāļĢāļ°āļĄāļēāļ (50 host) | $20K-60K (infra + engineering) | $50K-150K | | āļāļ§āļēāļĄāđāļŠāļĩāđāļĒāļ vendor lock-in | āļāđāļģ (OpenTelemetry, PromQL) | āļŠāļđāļāļāļ§āđāļē (āļ āļēāļĐāļē query āđāļāļāļēāļ°āļāļāļāļāļāđāļāļ) |
Stack āđāļāļ open-source āļāļđāđāļŦāļĄāļ·āļāļāļāļ°āļāļđāļāļāļ§āđāļēāđāļĄāļ·āđāļāļāļīāļāļēāļĢāļāļēāļāļēāļāļāļąāļ§āđāļĨāļ āđāļāđāļāđāļāļāđāļāđāđāļ§āļĨāļēāļāļāļāļ§āļīāļĻāļ§āļāļĢāđāļāļāļēāļĢāļāļąāļāđāļāļĢāļ āļ§āļēāļāđāļāļāļāļ§āļēāļĄāļāļļ āđāļĨāļ°āļāļąāđāļāļāđāļē high-availability āļŠāđāļ§āļāđāļĄāđāļāļĨāđāļāļ managed āļāļāļ Datadog āđāļāļāļ āļēāļĢāļ°āđāļŦāļĨāđāļēāļāļąāđāļāđāļŦāđāļāļđāđāđāļŦāđāļāļĢāļīāļāļēāļĢ āļŠāļģāļŦāļĢāļąāļāļāļĩāļĄāļāļĩāđāļĄāļĩāļ§āļīāļĻāļ§āļāļĢāļāļđāđāļĨ infrastructure āđāļĄāđāļāļķāļ 5 āļāļ āđāļāļĨāļđāļāļąāļāđāļāļ managed āļĄāļąāļāļĄāļĩāļāđāļāļāļļāļāļĢāļ§āļĄāļāļĩāđāļāđāļģāļāļ§āđāļēāđāļĄāļ·āđāļāļāļąāļāļĢāļ§āļĄāđāļ§āļĨāļēāļāļāļāļ§āļīāļĻāļ§āļāļĢāđāļāđāļēāđāļāļāđāļ§āļĒ
āļāļĢāđāļāļĄāļāļĩāđāļāļ°āļāļīāļāļīāļāļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļāđ DevOps āđāļĨāđāļ§āļŦāļĢāļ·āļāļĒāļąāļāļāļĢāļąāļ?
āļāļķāļāļāļāļāđāļ§āļĒāļāļąāļ§āļāļģāļĨāļāļāđāļāļāđāļāđāļāļāļ, flashcards āđāļĨāļ°āđāļāļāļāļāļŠāļāļāđāļāļāļāļīāļāļāļĢāļąāļ
Kubernetes Monitoring: āļāļ§āļēāļĄāļĨāļķāļāļāļāļāļāļēāļĢ Integration
āļāļ§āđāļē 80% āļāļāļ Kubernetes cluster āđāļāđ Prometheus āļŠāļģāļŦāļĢāļąāļāļāļēāļĢāđāļāđāļāļĢāļ§āļāļĢāļ§āļĄ metrics āļāļģāđāļŦāđāļŦāļąāļ§āļāđāļāļāļĩāđāđāļāđāļāļāļĢāļ°āđāļāđāļāļŦāļĨāļąāļāđāļāļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļāđāđāļāļĩāđāļĒāļ§āļāļąāļ container orchestration monitoring
Prometheus + Grafana āļāļģāļāļēāļāļĢāđāļ§āļĄāļāļąāļ Kubernetes āđāļāđāđāļāļĒāļāļĢāļāļāđāļēāļ kube-prometheus-stack Helm chart āļāļķāđāļ deploy Prometheus Operator, Alertmanager, node-exporter, kube-state-metrics āđāļĨāļ° Grafana dashboard āļŠāļģāđāļĢāđāļāļĢāļđāļāđāļāļāļĢāļąāđāļāđāļāļĩāļĒāļ§
# Deploy full monitoring stack on Kubernetes
helm repo add prometheus-community \
https://prometheus-community.github.io/helm-charts
helm install monitoring prometheus-community/kube-prometheus-stack \
--namespace monitoring \
--create-namespace \
--set prometheus.prometheusSpec.retention=30d \
--set prometheus.prometheusSpec.storageSpec.volumeClaimTemplate.spec.resources.requests.storage=50GiāļāļģāļŠāļąāđāļāļāļĩāđ deploy monitoring stack āļĢāļ°āļāļąāļ production āļāļĢāđāļāļĄ persistent storage āđāļĨāļ° retention 30 āļ§āļąāļ Prometheus Operator āđāļāđ Custom Resource Definition (ServiceMonitor, PodMonitor) āđāļāļ·āđāļāļāļģāļŦāļāļāļāđāļē scrape target āđāļāļ declarative
Datadog āđāļāđāļāļēāļĢ deploy agent DaemonSet āđāļĨāļ° Cluster Agent āđāļāļĒ Cluster Agent āļāļąāļāļāļēāļĢāļāļēāļĢāļŠāļ·āđāļāļŠāļēāļĢāļāļąāļ API server āđāļāļāļĢāļ§āļĄāļĻāļđāļāļĒāđ āļĨāļāļ āļēāļĢāļ°āļāļ Kubernetes API āļāļĩāđāļāļāļĢāđ Live Containers āļāļāļ Datadog āđāļŦāđāļāļēāļĢāļĄāļāļāđāļŦāđāļ pod state āđāļāļ real-time āđāļĨāļ° Orchestrator Explorer āđāļŠāļāļāļāļ§āļēāļĄāļŠāļąāļĄāļāļąāļāļāđāļĢāļ°āļŦāļ§āđāļēāļ deployment, service āđāļĨāļ° pod
āļŠāļģāļŦāļĢāļąāļāļāļĩāļĄāļāļĩāđāļĨāļāļāļļāļāđāļ Kubernetes ecosystem āļāļĒāļđāđāđāļĨāđāļ§ āđāļāļ§āļāļēāļ Prometheus-native āļāđāļ§āļĒāļŦāļĨāļĩāļāđāļĨāļĩāđāļĒāļāļāļēāļĢāļāļķāđāļāļāļē dependency āļ āļēāļĒāļāļāļ āļŠāđāļ§āļāļāļĩāļĄāļāļĩāđāļāđāļāļāļāļēāļĢāļāļ§āļēāļĄāļĢāļ§āļāđāļĢāđāļ§āđāļāļāļēāļĢāļāļīāļāļāļąāđāļāļāļĢāđāļāļĄāļ āļēāļĢāļ°āļāļđāđāļĨāļāđāļāļĒāļĄāļąāļāđāļĨāļ·āļāļ Datadog
OpenTelemetry āđāļĨāļ°āļāļ§āļēāļĄāđāļāđāļāļāļĨāļēāļāļāđāļ Vendor
OpenTelemetry (OTel) āļāļĨāļēāļĒāđāļāđāļāļĄāļēāļāļĢāļāļēāļāļāļļāļāļŠāļēāļŦāļāļĢāļĢāļĄāļŠāļģāļŦāļĢāļąāļ instrumentation āđāļĨāļ°āļāļđāđāļŠāļąāļĄāļ āļēāļĐāļāđāļĄāļąāļāļāļēāļĄāđāļāļĩāđāļĒāļ§āļāļąāļ OTel āļāļ§āļāļāļđāđāļāļąāļāļāļēāļĢāđāļāļĢāļĩāļĒāļāđāļāļĩāļĒāļāđāļāļĢāļ·āđāļāļāļĄāļ·āļ monitoring
Prometheus 3.0 āļāļķāđāļāđāļāļĢāļąāļ OTLP metrics āđāļāđāđāļāļĒāļāļĢāļāđāļāļĒāđāļĄāđāļāđāļāļāđāļāđ Collector āđāļāđāļāļāļąāļ§āļāļĨāļēāļ Grafana Alloy (āļāļąāļ§āļāđāļāļāļēāļ Grafana Agent) āļāļģāļŦāļāđāļēāļāļĩāđāđāļāđāļāļāļąāđāļ OTel Collector āđāļĨāļ° Prometheus scraper āļŠāđāļ§āļ Datadog āļĢāļāļāļĢāļąāļ OTLP ingestion āđāļāđāđāļāļ°āļāļģāđāļŦāđāđāļāđ agent āļāļāļāļāļāđāļāļāđāļāļ·āđāļ "āļāļēāļĢāđāļāđāļēāļāļķāļāļāļĩāđāļāļāļĢāđāđāļāđāļĄāļĢāļđāļāđāļāļ" āļāļķāđāļāļŠāļĢāđāļēāļ soft lock-in āđāļāļāļēāļāļāļāļīāļāļąāļāļī
āļāļēāļĢāļāļģ OTel āļĄāļēāđāļāđāļĄāļĩāļāļ§āļēāļĄāļŠāļģāļāļąāļāđāļāļĢāļēāļ°āđāļĒāļ instrumentation āļāļāļāļāļēāļāļāļąāļ§āđāļĨāļ·āļāļ backend āđāļāđāļāļāļāļāđāļāļāļāļĨāļīāđāļāļāļąāļāļāļĩāđ instrument āļāđāļ§āļĒ OTel SDK āļŠāļēāļĄāļēāļĢāļāļŠāđāļ telemetry āđāļāļĒāļąāļ Prometheus, Grafana Cloud, Datadog āļŦāļĢāļ·āļ backend āļāļĩāđāđāļāđāļēāļāļąāļāđāļāđāļāļ·āđāļ āđ āđāļāļĒāđāļĄāđāļāđāļāļāđāļāļĨāļĩāđāļĒāļāđāļāđāļ āļāļ§āļēāļĄāļĒāļ·āļāļŦāļĒāļļāđāļāļāļĩāđāđāļāđāļāđāļŦāļāļļāļāļĨāļāļĩāđāđāļāđāļāđāļāļĢāđāļāđāļāļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļāđ system design āđāļĄāļ·āđāļāļāļđāļāļāļķāļāļāļĨāļĒāļļāļāļāđ observability āļĢāļ°āļĒāļ°āļĒāļēāļ§
āļāļģāļāļēāļĄāļŠāļąāļĄāļ āļēāļĐāļāđ DevOps āļāđāļēāļ Monitoring āđāļĨāļ° Observability
āļāļģāļāļēāļĄāļāđāļāđāļāļāļĩāđāļāļāđāļāđāļāđāļāļĒāđāļāļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļāđāļāļģāđāļŦāļāđāļ DevOps āđāļĨāļ° SRE āļāļģāļāļāļāđāļāđāļĨāļ°āļāđāļāđāļāđāļāđāļāļ§āļāļīāļāļāļĩāđāļāļđāđāļŠāļąāļĄāļ āļēāļĐāļāđāļāđāļāļāļāļēāļĢāļāļāļŠāļāļ
āļāļēāļĄ: āļāļāļīāļāļēāļĒāļāļ§āļēāļĄāđāļāļāļāđāļēāļāļĢāļ°āļŦāļ§āđāļēāļ monitoring, observability āđāļĨāļ° alerting
Monitoring āļāļīāļāļāļēāļĄ metrics āļāļĩāđāļāļģāļŦāļāļāđāļ§āđāļĨāđāļ§āļāļŦāļāđāļēāđāļĨāļ°āļāļĢāļ§āļāļŠāļāļāļĢāļđāļāđāļāļāļāļ§āļēāļĄāļĨāđāļĄāđāļŦāļĨāļ§āļāļĩāđāļĢāļđāđāļāļąāļ Observability āļāđāļ§āļĒāđāļŦāđāļŠāļēāļĄāļēāļĢāļāļŠāļ·āļāļŠāļ§āļāļĢāļđāļāđāļāļāļāļ§āļēāļĄāļĨāđāļĄāđāļŦāļĨāļ§āļāļĩāđāđāļĄāđāļĢāļđāđāļāļąāļāļāđāļēāļ metrics, log āđāļĨāļ° trace ("āļŠāļēāļĄāđāļŠāļēāļŦāļĨāļąāļ") āļŠāđāļ§āļ alerting āļāļ·āļāļāļēāļĢāļŠāđāļāļāļēāļĢāđāļāđāļāđāļāļ·āļāļāđāļĄāļ·āđāļāđāļāļ·āđāļāļāđāļāđāļāļīāļ threshold āļāļĩāđāļāļģāļŦāļāļāļŦāļĢāļ·āļ baseline āļāļāļ anomaly Monitoring āļāļāļāļāļģāļāļēāļĄāļ§āđāļē "āļĢāļ°āļāļāļāļģāļāļēāļāļāļāļāļīāļŦāļĢāļ·āļāđāļĄāđ" Observability āļāļāļāļāļģāļāļēāļĄāļ§āđāļē "āļāļģāđāļĄāļĢāļ°āļāļāļāļķāļāļāļģāļāļēāļāļāļīāļāļāļāļāļī"
āļāļēāļĄ: Prometheus āđāļĄāđāđāļŦāļĄāļēāļ°āļāļąāļāļŠāļāļēāļāļāļēāļĢāļāđāđāļāļāđāļēāļ
Prometheus āļāļđāļāļāļāļāđāļāļāļĄāļēāđāļŦāđāđāļāđāļ reliability āļĄāļēāļāļāļ§āđāļē durability āļāļĨāđāļēāļ§āļāļ·āļāđāļŦāđāļāļ§āļēāļĄāļŠāļģāļāļąāļāļāļąāļ availability āļāļāļāļĢāļ°āļāļ monitoring āđāļāđāļāļŦāļĨāļąāļ āļŠāļāļēāļāļāļēāļĢāļāđāļāļĩāđ Prometheus āļĄāļĩāļāđāļāļāļģāļāļąāļ āđāļāđāđāļāđ āļāļēāļĢāļāļąāļāđāļāđāļāļāđāļāļĄāļđāļĨāļĢāļ°āļĒāļ°āļĒāļēāļ§āđāļāļīāļ 30 āļ§āļąāļ (āļāđāļāļāđāļāđ Thanos/Mimir/Cortex āļāđāļ§āļĒ) āļāđāļāļĄāļđāļĨāļāļēāļĢāđāļĢāļĩāļĒāļāđāļāđāļāđāļāļīāļāđāļāļ per-request āļāļĩāđāļāđāļāļāļāļēāļĢāļāļ§āļēāļĄāđāļĄāđāļāļĒāļģ 100% (Prometheus āļāļēāļāļāļīāđāļ sample āđāļĄāļ·āđāļāļĄāļĩ load āļŠāļđāļ) āđāļĨāļ°āļĢāļ°āļāļāđāļāļ event-based āļāļĩāđāļāđāļāļāļāļēāļĢ push-based collection (āđāļĄāđāļāļ°āļĄāļĩ pushgateway āđāļāđāļāļāļēāļāļāļāļ)
āļāļēāļĄ: āļāļĢāļąāļāļāļē "Big Tent" āļāļāļ Grafana āļŠāđāļāļāļĨāļāđāļāļŠāļāļēāļāļąāļāļĒāļāļĢāļĢāļĄ observability āļāļĒāđāļēāļāđāļĢ
Grafana āđāļāļ·āđāļāļĄāļāđāļāļāļąāļ data source āđāļāļāđāđāļāđāđāļāļĒāđāļĄāđāļāđāļāļ migrate āļāđāļāļĄāļđāļĨ āļāļģāđāļŦāđāļāļĩāļĄāļŠāļēāļĄāļēāļĢāļ query Prometheus, Elasticsearch, CloudWatch āđāļĨāļ° Datadog āļāļēāļ dashboard āđāļāļĩāļĒāļ§āļāļąāļ āļāđāļāđāļĨāļāđāļāļĨāļĩāđāļĒāļāļāļ·āļāļāļ§āļēāļĄāļāļąāļāļāđāļāļāļāđāļēāļ operation āđāļāļ·āđāļāļāļāļēāļāļāļēāļĢāļāļđāđāļĨ backend āļŦāļĨāļēāļĒāļāļąāļ§āļāđāļāļāđāļāđāļāļ§āļēāļĄāđāļāļĩāđāļĒāļ§āļāļēāļāļāđāļēāļ infrastructure āļĄāļēāļāļāļ§āđāļēāđāļāļ§āļāļēāļ single-vendor āļāļđāđāļŠāļąāļĄāļ āļēāļĐāļāđāļāđāļāļāļāļēāļĢāļāļāļŠāļāļāļ§āđāļēāļāļđāđāļŠāļĄāļąāļāļĢāļŠāļēāļĄāļēāļĢāļāļāļāļīāļāļēāļĒāļāđāļāđāļĨāļāđāļāļĨāļĩāđāļĒāļāļāļĩāđāđāļāđāļāļąāļāđāļāļāļŦāļĢāļ·āļāđāļĄāđ
āļāļēāļĄ: High-watermark billing āļāļāļ Datadog āļāļ·āļāļāļ°āđāļĢ āđāļĨāļ°āļĄāļĩāļāļ§āļēāļĄāļŠāļģāļāļąāļāļāļĒāđāļēāļāđāļĢ
Datadog āļ§āļąāļāļāļģāļāļ§āļ host āļĢāļēāļĒāļāļąāđāļ§āđāļĄāļ āļāļąāļāļāļąāđāļ§āđāļĄāļāļāļĩāđāļŠāļđāļāļāļĩāđāļŠāļļāļ 1% āļāļāļ āđāļĨāđāļ§āļāļīāļāđāļāļīāļāļāļēāļĄ peak āļāļĩāđ percentile āļāļĩāđ 99 āļŦāļĄāļēāļĒāļāļ§āļēāļĄāļ§āđāļē auto-scaling spike āļāļąāđāļ§āļāļĢāļēāļ§ (āđāļāđāļ āļāđāļ§āļ Black Friday) āļāļ°āļāļģāđāļŦāđāļāđāļēāđāļāđāļāđāļēāļĒāļĢāļēāļĒāđāļāļ·āļāļāļŠāļđāļāļāļķāđāļāđāļĄāđāļ§āđāļē instance āļāļ°āļāļđāļāļĒāļļāļāļīāđāļāđāļĨāđāļ§ āļāļđāđāļŠāļĄāļąāļāļĢāļāļĩāđāļāļĨāđāļēāļ§āļāļķāļāđāļĢāļ·āđāļāļāļāļĩāđāđāļŠāļāļāđāļŦāđāđāļŦāđāļāļ§āđāļēāļĄāļĩāļāļĢāļ°āļŠāļāļāļēāļĢāļāđāļāļĢāļīāļāļāđāļēāļāļāļēāļĢāļāļĢāļīāļŦāļēāļĢāļāđāļāļāļļāļ āļāļķāđāļāļāļģāđāļŦāļāđāļ SRE āđāļāļāļąāļāļāļļāļāļąāļāđāļŦāđāļāļ§āļēāļĄāļŠāļģāļāļąāļāļĄāļēāļāļāļķāđāļ
āļāļēāļĄ: āļāļĨāļĒāļļāļāļāđ SLO-based alerting āđāļāļāļāđāļēāļāļāļąāļāļāļĒāđāļēāļāđāļĢāļĢāļ°āļŦāļ§āđāļēāļ Prometheus āđāļĨāļ° Datadog
āđāļ Prometheus āļāļēāļĢāđāļāđāļāđāļāļ·āļāļāđāļāļ SLO āđāļāđ recording rule āđāļāļ·āđāļāļāļģāļāļ§āļ error budget āđāļĨāļ° burn rate alert āļĨāđāļ§āļāļŦāļāđāļē (āđāļāļ§āļāļēāļ multi-window, multi-burn-rate āļāļēāļāļŦāļāļąāļāļŠāļ·āļ SRE āļāļāļ Google) āļŠāđāļ§āļ Datadog āļĄāļĩ SLO widget āđāļĨāļ° monitor āļāļĩāđāļāļīāļāļāļēāļĄ burn rate āđāļāļĒāļāļąāļāđāļāļĄāļąāļāļī āļāļąāđāļāļŠāļāļāđāļāļ§āļāļēāļāđāļāđāđāļāļ§āļāļīāļāđāļāļĩāļĒāļ§āļāļąāļ āđāļāđ Prometheus āļāđāļāļāļāļąāđāļāļāđāļēāļāđāļ§āļĒāļāļāđāļāļāļĄāļēāļāļāļ§āđāļē āđāļāļāļāļ°āļāļĩāđ Datadog āļĄāļĩ workflow āļāļĩāđāļāļąāļāļāļēāļĢāđāļŦāđ āļāļđāđāļŠāļĄāļąāļāļĢāļāļ§āļĢāļāđāļēāļāļāļīāļ burn rate window (1 āļāļąāđāļ§āđāļĄāļ, 6 āļāļąāđāļ§āđāļĄāļ, 3 āļ§āļąāļ) āđāļĨāļ°āļāļąāļāļĢāļēāļāļēāļĢāđāļāđ error budget āđāļāļāļģāļāļāļ
āļŠāļģāļŦāļĢāļąāļāļāļēāļĢāļāļķāļāļāļāļŦāļąāļ§āļāđāļ monitoring āđāļāļīāđāļĄāđāļāļīāļĄ āđāļĄāļāļđāļĨāļāļģāļāļēāļĄāļŠāļąāļĄāļ āļēāļĐāļāđ Prometheus āđāļĨāļ° monitoring āļāļĢāļāļāļāļĨāļļāļĄāļŠāļāļēāļāļāļēāļĢāļāđāļāļģāļĨāļāļāđāļāļīāđāļĄāđāļāļīāļĄāļāļĢāđāļāļĄāļāļģāļāļāļīāļāļēāļĒāđāļāļĒāļĨāļ°āđāļāļĩāļĒāļ
Decision Framework: āļāļēāļĢāđāļĨāļ·āļāļ Stack āļāļĩāđāđāļŦāļĄāļēāļ°āļŠāļĄ
| Scenario | Recommended Stack | Rationale | |----------|------------------|----------| | Startup āļāļĩāļĄāļ§āļīāļĻāļ§āļāļĢ < 10 āļāļ | Datadog āļŦāļĢāļ·āļ Grafana Cloud | āļĨāļāļ āļēāļĢāļ°āļāđāļēāļ operation āđāļŦāđāļāđāļāļĒāļāļĩāđāļŠāļļāļ | | āļāļāļāđāļāļĢāļāļāļēāļāđāļŦāļāđāļāļĩāđāļĄāļĩ platform team | Prometheus + Grafana + Loki | āļāļ§āļāļāļļāļĄāđāļāđāđāļāđāļĄāļāļĩāđ āļāđāļāļāļļāļāļāđāļāļŦāļāđāļ§āļĒāļāđāļģāļāļ§āđāļēāđāļĄāļ·āđāļ scale | | Multi-cloud / hybrid | Prometheus + Grafana | āđāļāđāļāļāļĨāļēāļāļāđāļ vendor āļāļģāļāļēāļāđāļŦāļĄāļ·āļāļāļāļąāļāļāļļāļ environment | | āļāļļāļāļŠāļēāļŦāļāļĢāļĢāļĄāļāļĩāđāļāđāļāļ compliance āļŠāļđāļ (āļāļēāļĢāđāļāļīāļ, āļŠāļēāļāļēāļĢāļāļŠāļļāļ) | Self-hosted Prometheus + Grafana | āļāđāļāļĄāļđāļĨāļāļĒāļđāđāļ āļēāļĒāđāļāļāļāļāđāļāļĢ | | Scaling āļĢāļ§āļāđāļĢāđāļ§ āļāļēāļĢāđāļāļīāļāđāļāđāļĄāđāđāļāđāļāļāļ | Grafana Cloud (managed Mimir) | Scale āđāļāđāđāļāļĒāđāļĄāđāļāđāļāļāļāļąāļāļāļēāļĢ infrastructure | | āļāđāļāļāļāļēāļĢ anomaly detection āđāļāļ ML | Datadog | Watchdog āļāļģāļāļēāļāđāļāļĒāđāļĄāđāļāđāļāļāļāļąāđāļāļāđāļē |
āļāļēāļĢāđāļĨāļ·āļāļāļāļĩāđāđāļŦāļĄāļēāļ°āļŠāļĄāļāļķāđāļāļāļĒāļđāđāļāļąāļāļāļąāļ§āđāļāļĢāļŠāļēāļĄāļāļĢāļ°āļāļēāļĢ āđāļāđāđāļāđ āļāļāļēāļāļāļĩāļĄ āļāļ§āļēāļĄāļāļĢāđāļāļĄāļāđāļēāļ operation āđāļĨāļ°āļāđāļāļāļģāļāļąāļāļāđāļēāļāļāļāļāļĢāļ°āļĄāļēāļ āđāļĄāđāļĄāļĩāļāļģāļāļāļāļāļĩāđāļāļđāļāļāđāļāļāļŠāļēāļāļĨ āđāļĨāļ°āļāļđāđāļŠāļąāļĄāļ āļēāļĐāļāđāļāļēāļāļŦāļ§āļąāļāđāļŦāđāļāļđāđāļŠāļĄāļąāļāļĢāļ§āļīāđāļāļĢāļēāļ°āļŦāđāļāđāļāđāļĨāļāđāļāļĨāļĩāđāļĒāļāļāļĒāđāļēāļāđāļāđāļāđāļŦāļāļļāđāļāđāļāļāļĨāļĄāļēāļāļāļ§āđāļēāļāļĩāđāļāļ°āļĒāļ·āļāļĒāļąāļāļ§āđāļēāđāļāļĢāļ·āđāļāļāļĄāļ·āļāđāļāđāļāļĢāļ·āđāļāļāļĄāļ·āļāļŦāļāļķāđāļāļāļĩāļāļĩāđāļŠāļļāļ
āđāļĢāļīāđāļĄāļāļķāļāļāđāļāļĄāđāļĨāļĒ!
āļāļāļŠāļāļāļāļ§āļēāļĄāļĢāļđāđāļāļāļāļāļļāļāļāđāļ§āļĒāļāļąāļ§āļāļģāļĨāļāļāļŠāļąāļĄāļ āļēāļĐāļāđāđāļĨāļ°āđāļāļāļāļāļŠāļāļāđāļāļāļāļīāļāļāļĢāļąāļ
āļŠāļĢāļļāļ
- Prometheus āđāļāđāļāļĄāļēāļāļĢāļāļēāļāļŠāļģāļŦāļĢāļąāļāļāļēāļĢāđāļāđāļāļĢāļ§āļāļĢāļ§āļĄ metrics āđāļ Kubernetes environment āđāļāļĒāđāļ§āļāļĢāđāļāļąāļ 3.x āđāļ 2026 āļĄāļēāļāļĢāđāļāļĄ native OTLP support āđāļĨāļ° native histogram āļāļĩāđāđāļŠāļāļĩāļĒāļĢ
- Grafana āļāļ·āļ visualization layer āđāļĄāđāđāļāđ metrics database āđāļāļ·āđāļāļĄāļāđāļāļāļąāļ data source āļāļ§āđāļē 100 āļāļąāļ§āļĢāļ§āļĄāļāļķāļ Prometheus āđāļĨāļ° LGTM stack (Loki, Grafana, Tempo, Mimir) āļāļĢāļ°āļāļāļāđāļāđāļāđāļāļĨāļāļāļāļĢāđāļĄ observability āđāļāļ open-source āļāļĢāļāļ§āļāļāļĢ
- Datadog āđāļŦāđāđāļŠāđāļāļāļēāļāļāļĩāđāđāļĢāđāļ§āļāļĩāđāļŠāļļāļāļŠāļđāđ full-stack observability āļāļĢāđāļāļĄ alerting āļāļĩāđāļāļąāļāđāļāļĨāļ·āđāļāļāļāđāļ§āļĒ ML āđāļĨāļāļāļąāļāļĢāļēāļāļēāļāļĩāđāļŠāļđāļāļāļ§āđāļēāđāļĨāļ° vendor lock-in
- āļāļēāļĢāļāļģ OpenTelemetry āļĄāļēāđāļāđāļāļģāđāļŦāđāļāļąāļ§āđāļĨāļ·āļāļ backend āļĄāļĩāļāļ§āļēāļĄāļĒāļ·āļāļŦāļĒāļļāđāļāļĄāļēāļāļāļķāđāļ āđāļāļĢāļēāļ° instrumentation āļĒāļąāļāļāļāđāļŦāļĄāļ·āļāļāđāļāļīāļĄāđāļĄāđāļ§āđāļēāļāļ°āđāļāđāđāļāļĢāļ·āđāļāļāļĄāļ·āļāđāļāļāļąāļāđāļāđāļāđāļĨāļ° query āļāđāļāļĄāļđāļĨ
- āđāļāļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļāđ āļāļ§āļĢāđāļŠāļāļāļāļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļāđāļāļāļēāļĢāļ§āļīāđāļāļĢāļēāļ°āļŦāđāļāđāļāđāļĨāļāđāļāļĨāļĩāđāļĒāļ (āļāđāļāļāļļāļ āļāļēāļĢāļāļ§āļāļāļļāļĄ āļāļ§āļēāļĄāļāļąāļāļāđāļāļ) āļĄāļēāļāļāļ§āđāļēāļāļēāļĢāļŠāļāļąāļāļŠāļāļļāļāđāļāļĢāļ·āđāļāļāļĄāļ·āļāđāļāđāļāļĢāļ·āđāļāļāļĄāļ·āļāđāļāļĩāļĒāļ§
- āļŠāļģāļŦāļĢāļąāļāļāļēāļĢāđāļāļĢāļĩāļĒāļĄāļāļąāļ§āđāļāļīāļāļāļāļīāļāļąāļāļī āļŠāļēāļĄāļēāļĢāļāļāļķāļāļāļāđāļāđāļāļĩāđāđāļĄāļāļđāļĨāļāļģāļāļēāļĄāļŠāļąāļĄāļ āļēāļĐāļāđ DevOps āđāļĨāļ°āļĻāļķāļāļĐāļēāđāļāļīāđāļĄāđāļāļīāļĄāđāļāļĩāđāļĒāļ§āļāļąāļāđāļāļ§āļāļīāļ CI/CD pipeline āđāļāļ·āđāļāđāļŠāļĢāļīāļĄāļāļ§āļēāļĄāļĢāļđāđāđāļāļŦāļąāļ§āļāđāļāļāļĩāđāđāļāļĩāđāļĒāļ§āļāđāļāļ
āđāļāđāļ
āđāļāļĢāđ
āļāļāļāļ§āļēāļĄāļāļĩāđāđāļāļĩāđāļĒāļ§āļāđāļāļ

Kubernetes: āļāļĩāļāļĨāļāļĒāđāļāļāļāļĨāļīāđāļāļāļąāļāđāļĢāļ
āļāļđāđāļĄāļ·āļāđāļāļīāļāļāļāļīāļāļąāļāļīāļŠāļģāļŦāļĢāļąāļāļāļēāļĢāļāļĩāļāļĨāļāļĒāđāļāļāļāļĨāļīāđāļāļāļąāļāļāļ Kubernetes āļāļąāđāļāđāļāđāļāļēāļĢāļāļīāļāļāļąāđāļ minikube āđāļāļāļāļāļķāļ Deployments, Services āđāļĨāļ° ConfigMaps āļāļĢāđāļāļĄāļāļąāļ§āļāļĒāđāļēāļāļāļĩāđāđāļāđāļāļĢāļđāļāļāļĢāļĢāļĄ

āļāļģāļāļēāļĄāļŠāļąāļĄāļ āļēāļĐāļāđ DevOps āļāļĩāđāļāļģāđāļāđāļ: āļāļđāđāļĄāļ·āļāļāļāļąāļāļŠāļĄāļāļđāļĢāļāđ 2026
āđāļāļĢāļĩāļĒāļĄāļāļąāļ§āļŠāļąāļĄāļ āļēāļĐāļāđ DevOps āļāđāļ§āļĒāļāļģāļāļēāļĄāļāļĩāđāļāđāļāļāļĢāļđāđāđāļāļĩāđāļĒāļ§āļāļąāļ CI/CD, Kubernetes, Docker, Terraform āđāļĨāļ°āđāļāļ§āļāļāļīāļāļąāļāļī SRE āļāļĢāđāļāļĄāļāļģāļāļāļāļĨāļ°āđāļāļĩāļĒāļ

Docker: āļāļēāļāļāļēāļĢāļāļąāļāļāļēāļŠāļđāđāļāļēāļĢāđāļāđāļāļēāļāļāļĢāļīāļ
āļāļđāđāļĄāļ·āļ Docker āļāļāļąāļāļŠāļĄāļāļđāļĢāļāđāļŠāļģāļŦāļĢāļąāļāļāļēāļĢ containerize āđāļāļāļāļĨāļīāđāļāļāļąāļ Dockerfile, Docker Compose, multi-stage build āđāļĨāļ°āļāļēāļĢ deploy āļŠāļđāđ production āļāļĢāđāļāļĄāļāļąāļ§āļāļĒāđāļēāļāļāļĢāļīāļ