Prometheus vs Grafana vs Datadog āđƒāļ™āļ›āļĩ 2026: āđ€āļ›āļĢāļĩāļĒāļšāđ€āļ—āļĩāļĒāļšāļĢāļ°āļšāļš Monitoring āđāļĨāļ°āļ„āļģāļ–āļēāļĄāļŠāļąāļĄāļ āļēāļĐāļ“āđŒ DevOps

āđ€āļ›āļĢāļĩāļĒāļšāđ€āļ—āļĩāļĒāļš Prometheus, Grafana āđāļĨāļ° Datadog āļŠāļģāļŦāļĢāļąāļš monitoring āđƒāļ™āļ›āļĩ 2026 āļ„āļĢāļ­āļšāļ„āļĨāļļāļĄāļŠāļ–āļēāļ›āļąāļ•āļĒāļāļĢāļĢāļĄ, āļ āļēāļĐāļē query, alerting, āļĢāļēāļ„āļē TCO, Kubernetes monitoring āđāļĨāļ°āļ„āļģāļ–āļēāļĄāļŠāļąāļĄāļ āļēāļĐāļ“āđŒāļ‡āļēāļ™ DevOps āļ”āđ‰āļēāļ™ observability

Prometheus vs Grafana vs Datadog monitoring comparison for DevOps interviews

āļāļēāļĢāđ€āļ›āļĢāļĩāļĒāļšāđ€āļ—āļĩāļĒāļšāļĢāļ°āļŦāļ§āđˆāļēāļ‡ Prometheus, Grafana āđāļĨāļ° Datadog āđ€āļ›āđ‡āļ™āļŦāļ™āļķāđˆāļ‡āđƒāļ™āļŦāļąāļ§āļ‚āđ‰āļ­āļ—āļĩāđˆāļžāļšāļšāđˆāļ­āļĒāļ—āļĩāđˆāļŠāļļāļ”āđƒāļ™āļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļ“āđŒāļ‡āļēāļ™āļ•āļģāđāļŦāļ™āđˆāļ‡ DevOps āđāļĨāļ° SRE āļāļēāļĢāļ—āļģāļ„āļ§āļēāļĄāđ€āļ‚āđ‰āļēāđƒāļˆāļŠāļ–āļēāļ›āļąāļ•āļĒāļāļĢāļĢāļĄ āļˆāļļāļ”āđāļ‚āđ‡āļ‡ āđāļĨāļ°āļ‚āđ‰āļ­āđāļĨāļāđ€āļ›āļĨāļĩāđˆāļĒāļ™āļ‚āļ­āļ‡āđāļ•āđˆāļĨāļ°āđ€āļ„āļĢāļ·āđˆāļ­āļ‡āļĄāļ·āļ­āđāļŠāļ”āļ‡āđƒāļŦāđ‰āļœāļđāđ‰āļŠāļąāļĄāļ āļēāļĐāļ“āđŒāđ€āļŦāđ‡āļ™āļ–āļķāļ‡āļ›āļĢāļ°āļŠāļšāļāļēāļĢāļ“āđŒāļˆāļĢāļīāļ‡āđƒāļ™āļāļēāļĢāļ—āļģāļ‡āļēāļ™ āđ„āļĄāđˆāđƒāļŠāđˆāđ€āļžāļĩāļĒāļ‡āļ„āļ§āļēāļĄāļĢāļđāđ‰āļˆāļēāļāļ•āļģāļĢāļēāđ€āļ—āđˆāļēāļ™āļąāđ‰āļ™ āļšāļ—āļ„āļ§āļēāļĄāļ™āļĩāđ‰āļ§āļīāđ€āļ„āļĢāļēāļ°āļŦāđŒāļ„āļ§āļēāļĄāđāļ•āļāļ•āđˆāļēāļ‡āđƒāļ™āđ€āļŠāļīāļ‡āļĨāļķāļāļ—āļąāđ‰āļ‡āļ”āđ‰āļēāļ™āđ€āļ—āļ„āļ™āļīāļ„āđāļĨāļ°āļ”āđ‰āļēāļ™āļ•āđ‰āļ™āļ—āļļāļ™ āļžāļĢāđ‰āļ­āļĄāļĢāļ§āļšāļĢāļ§āļĄāļ„āļģāļ–āļēāļĄāļŠāļąāļĄāļ āļēāļĐāļ“āđŒāļ—āļĩāđˆāļ–āļđāļāļ–āļēāļĄāļšāđˆāļ­āļĒāđƒāļ™āļ›āļĩ 2026

āļˆāļļāļ”āđāļ•āļāļ•āđˆāļēāļ‡āļŠāļģāļ„āļąāļāļŠāļģāļŦāļĢāļąāļšāļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļ“āđŒ

Prometheus āļ„āļ·āļ­ engine āļŠāļģāļŦāļĢāļąāļšāđ€āļāđ‡āļšāļĢāļ§āļšāļĢāļ§āļĄāđāļĨāļ°āļˆāļąāļ”āđ€āļāđ‡āļš metrics āļŠāđˆāļ§āļ™ Grafana āļ„āļ·āļ­ layer āļŠāļģāļŦāļĢāļąāļš visualization āđāļĨāļ° dashboarding āđāļĨāļ° Datadog āļ„āļ·āļ­āđāļžāļĨāļ•āļŸāļ­āļĢāđŒāļĄ observability āđāļšāļš SaaS āļ—āļĩāđˆāļˆāļąāļ”āļāļēāļĢāļ„āļĢāļšāļ§āļ‡āļˆāļĢ āđ€āļ„āļĢāļ·āđˆāļ­āļ‡āļĄāļ·āļ­āļ—āļąāđ‰āļ‡āļŠāļēāļĄāđāļāđ‰āļ›āļąāļāļŦāļēāļ—āļĩāđˆāđāļ•āļāļ•āđˆāļēāļ‡āļāļąāļ™ āđāļĨāļ°āđƒāļ™āļŦāļĨāļēāļĒāļŠāļ–āļēāļ™āļāļēāļĢāļ“āđŒāļ—āļģāļ‡āļēāļ™āđ€āļŠāļĢāļīāļĄāļ‹āļķāđˆāļ‡āļāļąāļ™āđāļĨāļ°āļāļąāļ™āļĄāļēāļāļāļ§āđˆāļēāļ—āļĩāđˆāļˆāļ°āđāļ‚āđˆāļ‡āļ‚āļąāļ™āļāļąāļ™āđ‚āļ”āļĒāļ•āļĢāļ‡

āļŠāļ–āļēāļ›āļąāļ•āļĒāļāļĢāļĢāļĄāđāļĨāļ° Data Model: āđāļ•āđˆāļĨāļ°āđ€āļ„āļĢāļ·āđˆāļ­āļ‡āļĄāļ·āļ­āļˆāļąāļ”āļāļēāļĢ Metrics āļ­āļĒāđˆāļēāļ‡āđ„āļĢ

āļ„āļ§āļēāļĄāđāļ•āļāļ•āđˆāļēāļ‡āļ”āđ‰āļēāļ™āļŠāļ–āļēāļ›āļąāļ•āļĒāļāļĢāļĢāļĄāļĢāļ°āļŦāļ§āđˆāļēāļ‡āđ€āļ„āļĢāļ·āđˆāļ­āļ‡āļĄāļ·āļ­āļ—āļąāđ‰āļ‡āļŠāļēāļĄāļĄāļĩāļĨāļąāļāļĐāļ“āļ°āđ€āļ›āđ‡āļ™āļžāļ·āđ‰āļ™āļāļēāļ™ āđāļĨāļ°āļœāļđāđ‰āļŠāļąāļĄāļ āļēāļĐāļ“āđŒāļĄāļąāļāļ•āļąāđ‰āļ‡āļ„āļģāļ–āļēāļĄāđƒāļ™āļŦāļąāļ§āļ‚āđ‰āļ­āļ™āļĩāđ‰āđ€āļžāļ·āđˆāļ­āļ›āļĢāļ°āđ€āļĄāļīāļ™āļ„āļ§āļēāļĄāđ€āļ‚āđ‰āļēāđƒāļˆāđ€āļŠāļīāļ‡āļĨāļķāļāļ‚āļ­āļ‡āļœāļđāđ‰āļŠāļĄāļąāļ„āļĢ

Prometheus āđƒāļŠāđ‰āđ‚āļĄāđ€āļ”āļĨāđāļšāļš pull-based āļāļĨāđˆāļēāļ§āļ„āļ·āļ­āļˆāļ°āļ—āļģāļāļēāļĢ scrape HTTP endpoint (āđ‚āļ”āļĒāļ—āļąāđˆāļ§āđ„āļ›āļ„āļ·āļ­ /metrics) āļ•āļēāļĄāļŠāđˆāļ§āļ‡āđ€āļ§āļĨāļēāļ—āļĩāđˆāļāļģāļŦāļ™āļ”āđ„āļ§āđ‰ āđāļĨāđ‰āļ§āļˆāļąāļ”āđ€āļāđ‡āļšāļ‚āđ‰āļ­āļĄāļđāļĨ time-series āđƒāļ™āļāļēāļ™āļ‚āđ‰āļ­āļĄāļđāļĨ TSDB āđāļšāļš local āļ—āļĩāđˆāļ­āļ­āļāđāļšāļšāļĄāļēāđ€āļ‰āļžāļēāļ° time series āđāļ•āđˆāļĨāļ°āļ•āļąāļ§āļ–āļđāļāļĢāļ°āļšāļļāļ”āđ‰āļ§āļĒāļŠāļ·āđˆāļ­ metric āđāļĨāļ°āļŠāļļāļ”āļ‚āļ­āļ‡ key-value label āđƒāļ™ Prometheus 3.0 (āđ€āļ›āļīāļ”āļ•āļąāļ§āđ€āļĄāļ·āđˆāļ­āđ€āļ”āļ·āļ­āļ™āļžāļĪāļĻāļˆāļīāļāļēāļĒāļ™ 2024) native histograms āđ„āļ”āđ‰āļĢāļąāļšāļŠāļ–āļēāļ™āļ° stable āđƒāļ™āđ€āļ§āļ­āļĢāđŒāļŠāļąāļ™ 3.8 āļāļēāļĢāļĢāļąāļšāļ‚āđ‰āļ­āļĄāļđāļĨāļœāđˆāļēāļ™ OTLP āļāļĨāļēāļĒāđ€āļ›āđ‡āļ™āļŸāļĩāđ€āļˆāļ­āļĢāđŒ built-in āđāļĨāļ° Remote Write 2.0 āļŠāđˆāļ§āļĒāļ›āļĢāļąāļšāļ›āļĢāļļāļ‡ federation āļĢāļ°āļŦāļ§āđˆāļēāļ‡ cluster

Grafana āđ„āļĄāđˆāđ„āļ”āđ‰āļ—āļģāļŦāļ™āđ‰āļēāļ—āļĩāđˆāđ€āļāđ‡āļšāļĢāļ§āļšāļĢāļ§āļĄāļŦāļĢāļ·āļ­āļˆāļąāļ”āđ€āļāđ‡āļš metrics āđāļ•āđˆāđ€āļŠāļ·āđˆāļ­āļĄāļ•āđˆāļ­āļāļąāļš data source āļ•āđˆāļēāļ‡ āđ† āđ„āļĄāđˆāļ§āđˆāļēāļˆāļ°āđ€āļ›āđ‡āļ™ Prometheus, Loki, Tempo, InfluxDB, Elasticsearch āđāļĨāļ°āļ­āļ·āđˆāļ™ āđ† āļ­āļĩāļāļāļ§āđˆāļē 100 āļ•āļąāļ§ āļˆāļēāļāļ™āļąāđ‰āļ™ render dashboard āļˆāļēāļāļ‚āđ‰āļ­āļĄāļđāļĨāđ€āļŦāļĨāđˆāļēāļ™āļąāđ‰āļ™ Grafana Labs āļĒāļąāļ‡āđ€āļ›āđ‡āļ™āļœāļđāđ‰āļ”āļđāđāļĨ Mimir (āļŠāļģāļŦāļĢāļąāļšāļˆāļąāļ”āđ€āļāđ‡āļš metrics āļĢāļ°āļĒāļ°āļĒāļēāļ§), Loki (āļŠāļģāļŦāļĢāļąāļšāļĢāļ§āļšāļĢāļ§āļĄ log) āđāļĨāļ° Tempo (āļŠāļģāļŦāļĢāļąāļš distributed tracing) āļ‹āļķāđˆāļ‡āđ€āļĄāļ·āđˆāļ­āļĢāļ§āļĄāļāļąāļ™āļˆāļ°āđ€āļ›āđ‡āļ™ observability stack āđāļšāļš open-source āļ„āļĢāļšāļ§āļ‡āļˆāļĢ Grafana āđ€āļ§āļ­āļĢāđŒāļŠāļąāļ™ 13 āļ—āļĩāđˆāđ€āļ›āļīāļ”āļ•āļąāļ§āđƒāļ™āđ€āļ”āļ·āļ­āļ™āļžāļĪāļĐāļ āļēāļ„āļĄ 2026 āļĄāļēāļžāļĢāđ‰āļ­āļĄāđ€āļ„āļĢāļ·āđˆāļ­āļ‡āļĄāļ·āļ­ observability-as-code, Git Sync āļŠāļģāļŦāļĢāļąāļš dashboard āđāļĨāļ° SQL Expressions āļŠāļģāļŦāļĢāļąāļš query āļ‚āđ‰āļēāļĄāđāļŦāļĨāđˆāļ‡āļ‚āđ‰āļ­āļĄāļđāļĨ

Datadog āļ—āļģāļ‡āļēāļ™āđāļšāļš push-based āđƒāļ™āļĢāļđāļ›āđāļšāļš SaaS āđ‚āļ”āļĒ agent āļ—āļĩāđˆāļ•āļīāļ”āļ•āļąāđ‰āļ‡āļšāļ™ host āļˆāļ°āļŠāđˆāļ‡ metrics, log āđāļĨāļ° trace āđ„āļ›āļĒāļąāļ‡ cloud backend āļ‚āļ­āļ‡ Datadog āļ—āļļāļāļ­āļĒāđˆāļēāļ‡āļ•āļąāđ‰āļ‡āđāļ•āđˆāļāļēāļĢāļĢāļąāļšāļ‚āđ‰āļ­āļĄāļđāļĨ āļāļēāļĢāļˆāļąāļ”āđ€āļāđ‡āļš āļāļēāļĢ query āļāļēāļĢāđāļˆāđ‰āļ‡āđ€āļ•āļ·āļ­āļ™ āđ„āļ›āļˆāļ™āļ–āļķāļ‡ dashboard āļ—āļģāļ‡āļēāļ™āļ­āļĒāļđāđˆāļ āļēāļĒāđƒāļ™āđāļžāļĨāļ•āļŸāļ­āļĢāđŒāļĄāđ€āļ”āļĩāļĒāļ§āļ—āļĩāđˆāļˆāļąāļ”āļāļēāļĢāđƒāļŦāđ‰āļ—āļąāđ‰āļ‡āļŦāļĄāļ” Watchdog ML engine āļ—āļģāļāļēāļĢāļ•āļĢāļ§āļˆāļˆāļąāļš anomaly āđ‚āļ”āļĒāļ­āļąāļ•āđ‚āļ™āļĄāļąāļ•āļīāđ‚āļ”āļĒāđ„āļĄāđˆāļ•āđ‰āļ­āļ‡āļ•āļąāđ‰āļ‡āļ„āđˆāļē threshold āļ”āđ‰āļ§āļĒāļ•āļ™āđ€āļ­āļ‡

yaml
# prometheus.yml - Pull-based scrape configuration
global:
  scrape_interval: 15s
  evaluation_interval: 15s

scrape_configs:
  - job_name: 'api-server'
    kubernetes_sd_configs:
      - role: pod
    relabel_configs:
      - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
        action: keep
        regex: true
      - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_port]
        action: replace
        target_label: __address__
        regex: (.+)
        replacement: ${1}:${2}

āđ„āļŸāļĨāđŒ YAML āļ™āļĩāđ‰āđāļŠāļ”āļ‡ pull model āļ‚āļ­āļ‡ Prometheus āļ‹āļķāđˆāļ‡āļ—āļģāļāļēāļĢāļ„āđ‰āļ™āļŦāļē Kubernetes pod āļœāđˆāļēāļ™ service discovery āđāļĨāđ‰āļ§ scrape endpoint /metrics āļ‚āļ­āļ‡āđāļ•āđˆāļĨāļ° pod āļ—āļļāļ 15 āļ§āļīāļ™āļēāļ—āļĩ

PromQL vs Datadog Query Language: āđ„āļ§āļĒāļēāļāļĢāļ“āđŒāđāļĨāļ°āļ„āļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļ–

āļ āļēāļĐāļē query āđ€āļ›āđ‡āļ™āļŦāļąāļ§āļ‚āđ‰āļ­āļ—āļĩāđˆāļ–āļđāļāļ–āļēāļĄāļšāđˆāļ­āļĒāđƒāļ™āļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļ“āđŒ āļœāļđāđ‰āļŠāļĄāļąāļ„āļĢāļ„āļ§āļĢāđāļŠāļ”āļ‡āļ„āļ§āļēāļĄāļŠāļģāļ™āļēāļāđƒāļ™āļ­āļĒāđˆāļēāļ‡āļ™āđ‰āļ­āļĒāļŦāļ™āļķāđˆāļ‡āļ āļēāļĐāļē āđāļĨāļ°āļŠāļēāļĄāļēāļĢāļ–āļ­āļ˜āļīāļšāļēāļĒāļ‚āđ‰āļ­āđāļĨāļāđ€āļ›āļĨāļĩāđˆāļĒāļ™āļĢāļ°āļŦāļ§āđˆāļēāļ‡āļ—āļąāđ‰āļ‡āļŠāļ­āļ‡āđ„āļ”āđ‰

PromQL (Prometheus Query Language) āđ€āļ›āđ‡āļ™āļ āļēāļĐāļēāļĄāļēāļ•āļĢāļāļēāļ™āļŠāļģāļŦāļĢāļąāļš metrics query āđƒāļ™ ecosystem āļ‚āļ­āļ‡ Prometheus āđāļĨāļ° Grafana āļĢāļ­āļ‡āļĢāļąāļš instant vector, range vector, aggregation operator āđāļĨāļ° recording rule

promql
# Request rate per service over 5 minutes
rate(http_requests_total{job="api-server"}[5m])

# 99th percentile latency using native histograms
histogram_quantile(0.99, rate(http_request_duration_seconds[5m]))

# Error rate as percentage
sum(rate(http_requests_total{status=~"5.."}[5m]))
  / sum(rate(http_requests_total[5m])) * 100

# Predict disk full in 4 hours using linear regression
predict_linear(node_filesystem_avail_bytes[1h], 4 * 3600) < 0

āļ āļēāļĐāļē query āļ‚āļ­āļ‡ Datadog āđƒāļŠāđ‰āđ„āļ§āļĒāļēāļāļĢāļ“āđŒāļ—āļĩāđˆāđāļ•āļāļ•āđˆāļēāļ‡āļ­āļ­āļāđ„āļ› āđ‚āļ”āļĒāļŠāļĢāđ‰āļēāļ‡āļ‚āļķāđ‰āļ™āļˆāļēāļāļŸāļąāļ‡āļāđŒāļŠāļąāļ™āđāļĨāļ° scoping

text
# Equivalent request rate in Datadog
sum:http.requests{service:api-server}.as_rate()

# Anomaly detection (Watchdog ML - no equivalent in PromQL)
anomaly(avg:system.cpu.user{service:api-server}, 'agile', 3)

# Forecast query
forecast(avg:system.disk.free{host:web-01}, 'linear', 1)

PromQL āļĄāļĩāļ„āļ§āļēāļĄāļĒāļ·āļ”āļŦāļĒāļļāđˆāļ™āļŠāļđāļ‡āļāļ§āđˆāļēāļŠāļģāļŦāļĢāļąāļšāļāļēāļĢāļ§āļīāđ€āļ„āļĢāļēāļ°āļŦāđŒāđāļšāļš ad-hoc āđƒāļ™āļ‚āļ“āļ°āļ—āļĩāđˆāļ āļēāļĐāļē query āļ‚āļ­āļ‡ Datadog āđāļĨāļāļ„āļ§āļēāļĄāļĒāļ·āļ”āļŦāļĒāļļāđˆāļ™āļšāļēāļ‡āļŠāđˆāļ§āļ™āļāļąāļšāļŸāļąāļ‡āļāđŒāļŠāļąāļ™ ML āļ—āļĩāđˆāļĄāļēāļžāļĢāđ‰āļ­āļĄāđƒāļŠāđ‰āļ‡āļēāļ™ āđ€āļŠāđˆāļ™ anomaly() āđāļĨāļ° forecast() āļ‹āļķāđˆāļ‡āļŦāļēāļāđƒāļŠāđ‰ Prometheus stack āļˆāļ°āļ•āđ‰āļ­āļ‡āļžāļķāđˆāļ‡āļžāļēāđ€āļ„āļĢāļ·āđˆāļ­āļ‡āļĄāļ·āļ­āļ āļēāļĒāļ™āļ­āļ

āļāļĨāļĒāļļāļ—āļ˜āđŒāļāļēāļĢāđāļˆāđ‰āļ‡āđ€āļ•āļ·āļ­āļ™: Rules-Based vs ML-Powered Detection

āļ›āļĢāļąāļŠāļāļēāļāļēāļĢāđāļˆāđ‰āļ‡āđ€āļ•āļ·āļ­āļ™āļĄāļĩāļ„āļ§āļēāļĄāđāļ•āļāļ•āđˆāļēāļ‡āļ­āļĒāđˆāļēāļ‡āļŠāļąāļ”āđ€āļˆāļ™āļĢāļ°āļŦāļ§āđˆāļēāļ‡āđ€āļ„āļĢāļ·āđˆāļ­āļ‡āļĄāļ·āļ­āđ€āļŦāļĨāđˆāļēāļ™āļĩāđ‰ āđāļĨāļ°āļāļēāļĢāļ—āļģāļ„āļ§āļēāļĄāđ€āļ‚āđ‰āļēāđƒāļˆāļ„āļ§āļēāļĄāđāļ•āļāļ•āđˆāļēāļ‡āļ™āļĩāđ‰āđāļŠāļ”āļ‡āļ–āļķāļ‡āļ„āļ§āļēāļĄāļžāļĢāđ‰āļ­āļĄāļ”āđ‰āļēāļ™ operational āđƒāļ™āļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļ“āđŒ

Prometheus Alertmanager āļ›āļĢāļ°āđ€āļĄāļīāļ™ rule āļ•āļēāļĄāļŠāđˆāļ§āļ‡āđ€āļ§āļĨāļēāļ—āļĩāđˆāļāļģāļŦāļ™āļ” āđāļĨāđ‰āļ§āļŠāđˆāļ‡ alert āļœāđˆāļēāļ™ pipeline āļ—āļĩāđˆāļ•āļąāđ‰āļ‡āļ„āđˆāļēāđ„āļ”āđ‰ āļ‹āļķāđˆāļ‡āļĢāļ­āļ‡āļĢāļąāļšāļ—āļąāđ‰āļ‡ grouping, silencing āđāļĨāļ° inhibition

yaml
# alert-rules.yml - Prometheus alerting rules
groups:
  - name: api-server-alerts
    rules:
      - alert: HighErrorRate
        expr: |
          sum(rate(http_requests_total{status=~"5..",job="api-server"}[5m]))
          / sum(rate(http_requests_total{job="api-server"}[5m])) > 0.05
        for: 5m
        labels:
          severity: critical
        annotations:
          summary: "API error rate above 5% for 5 minutes"
          runbook: "https://wiki.internal/runbooks/high-error-rate"

      - alert: PodMemoryPressure
        expr: |
          container_memory_working_set_bytes{namespace="production"}
          / container_spec_memory_limit_bytes{namespace="production"} > 0.9
        for: 10m
        labels:
          severity: warning

āđāļ™āļ§āļ—āļēāļ‡āļ™āļĩāđ‰āļāļģāļŦāļ™āļ”āđƒāļŦāđ‰āļœāļđāđ‰āļ”āļđāđāļĨāļĢāļ°āļšāļšāļ•āđ‰āļ­āļ‡āļ•āļąāđ‰āļ‡ threshold āļ­āļĒāđˆāļēāļ‡āļŠāļąāļ”āđ€āļˆāļ™ āļ‚āđ‰āļ­āļ”āļĩāļ„āļ·āļ­āļĄāļĩāļ„āļ§āļēāļĄāđ‚āļ›āļĢāđˆāļ‡āđƒāļŠāđ€āļ•āđ‡āļĄāļ—āļĩāđˆ āđ€āļžāļĢāļēāļ°āļ—āļļāļ alert āļĄāļĩ expression āļ—āļĩāđˆāļŠāļēāļĄāļēāļĢāļ–āļ•āļĢāļ§āļˆāļŠāļ­āļšāđ„āļ”āđ‰ āļ‚āđ‰āļ­āđ€āļŠāļĩāļĒāļ„āļ·āļ­āļ›āļąāļāļŦāļē threshold fatigue āļ‹āļķāđˆāļ‡āļ„āđˆāļēāļ„āļ‡āļ—āļĩāđˆāļĄāļąāļāļ•āđ‰āļ­āļ‡āļ›āļĢāļąāļšāļ•āļēāļĄāļĪāļ”āļđāļāļēāļĨāļŦāļĢāļ·āļ­āļĢāļđāļ›āđāļšāļšāļāļēāļĢāđƒāļŠāđ‰āļ‡āļēāļ™

Grafana Alerting (āļĢāļ§āļĄāđ€āļ›āđ‡āļ™āļĢāļ°āļšāļšāđ€āļ”āļĩāļĒāļ§āļ•āļąāđ‰āļ‡āđāļ•āđˆ Grafana 12 āđ€āļ›āđ‡āļ™āļ•āđ‰āļ™āđ„āļ›) āļ›āļĢāļ°āđ€āļĄāļīāļ™ query āļˆāļēāļ data source āļ—āļĩāđˆāđ€āļŠāļ·āđˆāļ­āļĄāļ•āđˆāļ­āļ—āļļāļāļ•āļąāļ§ āđāļĨāļ°āļĢāļ­āļ‡āļĢāļąāļš multi-dimensional alert āļžāļĢāđ‰āļ­āļĄ notification policy āļ—āļĩāđˆāļĒāļ·āļ”āļŦāļĒāļļāđˆāļ™

Datadog Monitors āļœāļŠāļĄāļœāļŠāļēāļ™ static threshold āđ€āļ‚āđ‰āļēāļāļąāļš anomaly, outlier āđāļĨāļ° forecast monitor āļ—āļĩāđˆāļ‚āļąāļšāđ€āļ„āļĨāļ·āđˆāļ­āļ™āļ”āđ‰āļ§āļĒ ML āđ‚āļ”āļĒ Watchdog āļˆāļ°āļ•āļĢāļ§āļˆāļˆāļąāļš performance anomaly āđ‚āļ”āļĒāļ­āļąāļ•āđ‚āļ™āļĄāļąāļ•āļīāđ‚āļ”āļĒāđ„āļĄāđˆāļ•āđ‰āļ­āļ‡āļŠāļĢāđ‰āļēāļ‡ rule āļ”āđ‰āļ§āļĒāļ•āļ™āđ€āļ­āļ‡ āļ§āļīāļ˜āļĩāļ™āļĩāđ‰āļĨāļ”āļ āļēāļĢāļ°āļāļēāļĢāļ•āļąāđ‰āļ‡āļ„āđˆāļē āđāļ•āđˆāđāļĨāļāļĄāļēāļ”āđ‰āļ§āļĒāļ„āļ§āļēāļĄāđ‚āļ›āļĢāđˆāļ‡āđƒāļŠāļ—āļĩāđˆāļĨāļ”āļĨāļ‡āđƒāļ™āļ•āļĢāļĢāļāļ°āļāļēāļĢāļ•āļĢāļ§āļˆāļˆāļąāļš

āļĢāļēāļ„āļēāđāļĨāļ° Total Cost of Ownership āđƒāļ™āļ›āļĩ 2026

āđ€āļĢāļ·āđˆāļ­āļ‡āļĢāļēāļ„āļēāđ€āļ›āđ‡āļ™āļ›āļąāļˆāļˆāļąāļĒāļŠāļĩāđ‰āļ‚āļēāļ”āđƒāļ™āļāļēāļĢāđ€āļĨāļ·āļ­āļāđ€āļ„āļĢāļ·āđˆāļ­āļ‡āļĄāļ·āļ­āđƒāļ™āļŠāļ–āļēāļ™āļāļēāļĢāļ“āđŒāļˆāļĢāļīāļ‡ āđāļĨāļ°āļĄāļąāļāļ–āļđāļāļ–āļēāļĄāđƒāļ™āļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļ“āđŒāđ€āļāļĩāđˆāļĒāļ§āļāļąāļš system design āļāļēāļĢāļ—āļģāļ„āļ§āļēāļĄāđ€āļ‚āđ‰āļēāđƒāļˆāđ‚āļ„āļĢāļ‡āļŠāļĢāđ‰āļēāļ‡āļ•āđ‰āļ™āļ—āļļāļ™āđāļŠāļ”āļ‡āļ–āļķāļ‡āļ„āļ§āļēāļĄāļ•āļĢāļ°āļŦāļ™āļąāļāļ”āđ‰āļēāļ™āļ˜āļļāļĢāļāļīāļˆāļ‚āļ­āļ‡āļœāļđāđ‰āļŠāļĄāļąāļ„āļĢ

| Dimension | Prometheus + Grafana | Datadog | |-----------|---------------------|--------| | License | āļŸāļĢāļĩ (AGPL / Apache 2.0) | $15-31/host/āđ€āļ”āļ·āļ­āļ™ (āļŠāļąāļāļāļēāļĢāļēāļĒāļ›āļĩ) | | Metrics storage | āļˆāļąāļ”āļāļēāļĢāđ€āļ­āļ‡ (Mimir/Thanos) | āļĢāļ§āļĄāļ­āļĒāļđāđˆāđƒāļ™āđāļžāđ‡āļāđ€āļāļˆ āļ„āļīāļ”āļĢāļēāļ„āļēāļ•āļēāļĄ retention | | Log management | Loki (self-hosted) | $0.10/GB āļ—āļĩāđˆ ingest + indexing | | APM / Traces | Tempo (self-hosted) | $31/host/āđ€āļ”āļ·āļ­āļ™ | | Infrastructure cost | Compute + storage āļŠāļģāļŦāļĢāļąāļš stack āļ—āļąāđ‰āļ‡āļŦāļĄāļ” | āđ„āļĄāđˆāļĄāļĩ (SaaS) | | Operational overhead | āļŠāļđāļ‡ (āļ­āļąāļ›āđ€āļāļĢāļ”, scaling, HA) | āļ™āđ‰āļ­āļĒāļĄāļēāļ | | āļ„āđˆāļēāđƒāļŠāđ‰āļˆāđˆāļēāļĒāļĢāļēāļĒāļ›āļĩāđ‚āļ”āļĒāļ›āļĢāļ°āļĄāļēāļ“ (50 host) | $20K-60K (infra + engineering) | $50K-150K | | āļ„āļ§āļēāļĄāđ€āļŠāļĩāđˆāļĒāļ‡ vendor lock-in | āļ•āđˆāļģ (OpenTelemetry, PromQL) | āļŠāļđāļ‡āļāļ§āđˆāļē (āļ āļēāļĐāļē query āđ€āļ‰āļžāļēāļ°āļ‚āļ­āļ‡āļ•āļ™āđ€āļ­āļ‡) |

Stack āđāļšāļš open-source āļ”āļđāđ€āļŦāļĄāļ·āļ­āļ™āļˆāļ°āļ–āļđāļāļāļ§āđˆāļēāđ€āļĄāļ·āđˆāļ­āļžāļīāļˆāļēāļĢāļ“āļēāļˆāļēāļāļ•āļąāļ§āđ€āļĨāļ‚ āđāļ•āđˆāļ•āđ‰āļ­āļ‡āđƒāļŠāđ‰āđ€āļ§āļĨāļēāļ‚āļ­āļ‡āļ§āļīāļĻāļ§āļāļĢāđƒāļ™āļāļēāļĢāļ­āļąāļ›āđ€āļāļĢāļ” āļ§āļēāļ‡āđāļœāļ™āļ„āļ§āļēāļĄāļˆāļļ āđāļĨāļ°āļ•āļąāđ‰āļ‡āļ„āđˆāļē high-availability āļŠāđˆāļ§āļ™āđ‚āļĄāđ€āļ”āļĨāđāļšāļš managed āļ‚āļ­āļ‡ Datadog āđ‚āļ­āļ™āļ āļēāļĢāļ°āđ€āļŦāļĨāđˆāļēāļ™āļąāđ‰āļ™āđƒāļŦāđ‰āļœāļđāđ‰āđƒāļŦāđ‰āļšāļĢāļīāļāļēāļĢ āļŠāļģāļŦāļĢāļąāļšāļ—āļĩāļĄāļ—āļĩāđˆāļĄāļĩāļ§āļīāļĻāļ§āļāļĢāļ”āļđāđāļĨ infrastructure āđ„āļĄāđˆāļ–āļķāļ‡ 5 āļ„āļ™ āđ‚āļ‹āļĨāļđāļŠāļąāļ™āđāļšāļš managed āļĄāļąāļāļĄāļĩāļ•āđ‰āļ™āļ—āļļāļ™āļĢāļ§āļĄāļ—āļĩāđˆāļ•āđˆāļģāļāļ§āđˆāļēāđ€āļĄāļ·āđˆāļ­āļ™āļąāļšāļĢāļ§āļĄāđ€āļ§āļĨāļēāļ‚āļ­āļ‡āļ§āļīāļĻāļ§āļāļĢāđ€āļ‚āđ‰āļēāđ„āļ›āļ”āđ‰āļ§āļĒ

āļžāļĢāđ‰āļ­āļĄāļ—āļĩāđˆāļˆāļ°āļžāļīāļŠāļīāļ•āļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļ“āđŒ DevOps āđāļĨāđ‰āļ§āļŦāļĢāļ·āļ­āļĒāļąāļ‡āļ„āļĢāļąāļš?

āļāļķāļāļāļ™āļ”āđ‰āļ§āļĒāļ•āļąāļ§āļˆāļģāļĨāļ­āļ‡āđāļšāļšāđ‚āļ•āđ‰āļ•āļ­āļš, flashcards āđāļĨāļ°āđāļšāļšāļ—āļ”āļŠāļ­āļšāđ€āļ—āļ„āļ™āļīāļ„āļ„āļĢāļąāļš

Kubernetes Monitoring: āļ„āļ§āļēāļĄāļĨāļķāļāļ‚āļ­āļ‡āļāļēāļĢ Integration

āļāļ§āđˆāļē 80% āļ‚āļ­āļ‡ Kubernetes cluster āđƒāļŠāđ‰ Prometheus āļŠāļģāļŦāļĢāļąāļšāļāļēāļĢāđ€āļāđ‡āļšāļĢāļ§āļšāļĢāļ§āļĄ metrics āļ—āļģāđƒāļŦāđ‰āļŦāļąāļ§āļ‚āđ‰āļ­āļ™āļĩāđ‰āđ€āļ›āđ‡āļ™āļ›āļĢāļ°āđ€āļ”āđ‡āļ™āļŦāļĨāļąāļāđƒāļ™āļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļ“āđŒāđ€āļāļĩāđˆāļĒāļ§āļāļąāļš container orchestration monitoring

Prometheus + Grafana āļ—āļģāļ‡āļēāļ™āļĢāđˆāļ§āļĄāļāļąāļš Kubernetes āđ„āļ”āđ‰āđ‚āļ”āļĒāļ•āļĢāļ‡āļœāđˆāļēāļ™ kube-prometheus-stack Helm chart āļ‹āļķāđˆāļ‡ deploy Prometheus Operator, Alertmanager, node-exporter, kube-state-metrics āđāļĨāļ° Grafana dashboard āļŠāļģāđ€āļĢāđ‡āļˆāļĢāļđāļ›āđƒāļ™āļ„āļĢāļąāđ‰āļ‡āđ€āļ”āļĩāļĒāļ§

bash
# Deploy full monitoring stack on Kubernetes
helm repo add prometheus-community \
  https://prometheus-community.github.io/helm-charts
helm install monitoring prometheus-community/kube-prometheus-stack \
  --namespace monitoring \
  --create-namespace \
  --set prometheus.prometheusSpec.retention=30d \
  --set prometheus.prometheusSpec.storageSpec.volumeClaimTemplate.spec.resources.requests.storage=50Gi

āļ„āļģāļŠāļąāđˆāļ‡āļ™āļĩāđ‰ deploy monitoring stack āļĢāļ°āļ”āļąāļš production āļžāļĢāđ‰āļ­āļĄ persistent storage āđāļĨāļ° retention 30 āļ§āļąāļ™ Prometheus Operator āđƒāļŠāđ‰ Custom Resource Definition (ServiceMonitor, PodMonitor) āđ€āļžāļ·āđˆāļ­āļāļģāļŦāļ™āļ”āļ„āđˆāļē scrape target āđāļšāļš declarative

Datadog āđƒāļŠāđ‰āļāļēāļĢ deploy agent DaemonSet āđāļĨāļ° Cluster Agent āđ‚āļ”āļĒ Cluster Agent āļˆāļąāļ”āļāļēāļĢāļāļēāļĢāļŠāļ·āđˆāļ­āļŠāļēāļĢāļāļąāļš API server āđāļšāļšāļĢāļ§āļĄāļĻāļđāļ™āļĒāđŒ āļĨāļ”āļ āļēāļĢāļ°āļšāļ™ Kubernetes API āļŸāļĩāđ€āļˆāļ­āļĢāđŒ Live Containers āļ‚āļ­āļ‡ Datadog āđƒāļŦāđ‰āļāļēāļĢāļĄāļ­āļ‡āđ€āļŦāđ‡āļ™ pod state āđāļšāļš real-time āđāļĨāļ° Orchestrator Explorer āđāļŠāļ”āļ‡āļ„āļ§āļēāļĄāļŠāļąāļĄāļžāļąāļ™āļ˜āđŒāļĢāļ°āļŦāļ§āđˆāļēāļ‡ deployment, service āđāļĨāļ° pod

āļŠāļģāļŦāļĢāļąāļšāļ—āļĩāļĄāļ—āļĩāđˆāļĨāļ‡āļ—āļļāļ™āđƒāļ™ Kubernetes ecosystem āļ­āļĒāļđāđˆāđāļĨāđ‰āļ§ āđāļ™āļ§āļ—āļēāļ‡ Prometheus-native āļŠāđˆāļ§āļĒāļŦāļĨāļĩāļāđ€āļĨāļĩāđˆāļĒāļ‡āļāļēāļĢāļžāļķāđˆāļ‡āļžāļē dependency āļ āļēāļĒāļ™āļ­āļ āļŠāđˆāļ§āļ™āļ—āļĩāļĄāļ—āļĩāđˆāļ•āđ‰āļ­āļ‡āļāļēāļĢāļ„āļ§āļēāļĄāļĢāļ§āļ”āđ€āļĢāđ‡āļ§āđƒāļ™āļāļēāļĢāļ•āļīāļ”āļ•āļąāđ‰āļ‡āļžāļĢāđ‰āļ­āļĄāļ āļēāļĢāļ°āļ”āļđāđāļĨāļ™āđ‰āļ­āļĒāļĄāļąāļāđ€āļĨāļ·āļ­āļ Datadog

OpenTelemetry āđāļĨāļ°āļ„āļ§āļēāļĄāđ€āļ›āđ‡āļ™āļāļĨāļēāļ‡āļ•āđˆāļ­ Vendor

OpenTelemetry (OTel) āļāļĨāļēāļĒāđ€āļ›āđ‡āļ™āļĄāļēāļ•āļĢāļāļēāļ™āļ­āļļāļ•āļŠāļēāļŦāļāļĢāļĢāļĄāļŠāļģāļŦāļĢāļąāļš instrumentation āđāļĨāļ°āļœāļđāđ‰āļŠāļąāļĄāļ āļēāļĐāļ“āđŒāļĄāļąāļāļ–āļēāļĄāđ€āļāļĩāđˆāļĒāļ§āļāļąāļš OTel āļ„āļ§āļšāļ„āļđāđˆāļāļąāļšāļāļēāļĢāđ€āļ›āļĢāļĩāļĒāļšāđ€āļ—āļĩāļĒāļšāđ€āļ„āļĢāļ·āđˆāļ­āļ‡āļĄāļ·āļ­ monitoring

Prometheus 3.0 āļ‚āļķāđ‰āļ™āđ„āļ›āļĢāļąāļš OTLP metrics āđ„āļ”āđ‰āđ‚āļ”āļĒāļ•āļĢāļ‡āđ‚āļ”āļĒāđ„āļĄāđˆāļ•āđ‰āļ­āļ‡āđƒāļŠāđ‰ Collector āđ€āļ›āđ‡āļ™āļ•āļąāļ§āļāļĨāļēāļ‡ Grafana Alloy (āļ•āļąāļ§āļ•āđˆāļ­āļˆāļēāļ Grafana Agent) āļ—āļģāļŦāļ™āđ‰āļēāļ—āļĩāđˆāđ€āļ›āđ‡āļ™āļ—āļąāđ‰āļ‡ OTel Collector āđāļĨāļ° Prometheus scraper āļŠāđˆāļ§āļ™ Datadog āļĢāļ­āļ‡āļĢāļąāļš OTLP ingestion āđāļ•āđˆāđāļ™āļ°āļ™āļģāđƒāļŦāđ‰āđƒāļŠāđ‰ agent āļ‚āļ­āļ‡āļ•āļ™āđ€āļ­āļ‡āđ€āļžāļ·āđˆāļ­ "āļāļēāļĢāđ€āļ‚āđ‰āļēāļ–āļķāļ‡āļŸāļĩāđ€āļˆāļ­āļĢāđŒāđ€āļ•āđ‡āļĄāļĢāļđāļ›āđāļšāļš" āļ‹āļķāđˆāļ‡āļŠāļĢāđ‰āļēāļ‡ soft lock-in āđƒāļ™āļ—āļēāļ‡āļ›āļāļīāļšāļąāļ•āļī

āļāļēāļĢāļ™āļģ OTel āļĄāļēāđƒāļŠāđ‰āļĄāļĩāļ„āļ§āļēāļĄāļŠāļģāļ„āļąāļāđ€āļžāļĢāļēāļ°āđāļĒāļ instrumentation āļ­āļ­āļāļˆāļēāļāļ•āļąāļ§āđ€āļĨāļ·āļ­āļ backend āđ‚āļ„āđ‰āļ”āļ‚āļ­āļ‡āđāļ­āļ›āļžāļĨāļīāđ€āļ„āļŠāļąāļ™āļ—āļĩāđˆ instrument āļ”āđ‰āļ§āļĒ OTel SDK āļŠāļēāļĄāļēāļĢāļ–āļŠāđˆāļ‡ telemetry āđ„āļ›āļĒāļąāļ‡ Prometheus, Grafana Cloud, Datadog āļŦāļĢāļ·āļ­ backend āļ—āļĩāđˆāđ€āļ‚āđ‰āļēāļāļąāļ™āđ„āļ”āđ‰āļ­āļ·āđˆāļ™ āđ† āđ‚āļ”āļĒāđ„āļĄāđˆāļ•āđ‰āļ­āļ‡āđ€āļ›āļĨāļĩāđˆāļĒāļ™āđ‚āļ„āđ‰āļ” āļ„āļ§āļēāļĄāļĒāļ·āļ”āļŦāļĒāļļāđˆāļ™āļ™āļĩāđ‰āđ€āļ›āđ‡āļ™āđ€āļŦāļ•āļļāļœāļĨāļ—āļĩāđˆāđāļ‚āđ‡āļ‡āđāļāļĢāđˆāļ‡āđƒāļ™āļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļ“āđŒ system design āđ€āļĄāļ·āđˆāļ­āļžāļđāļ”āļ–āļķāļ‡āļāļĨāļĒāļļāļ—āļ˜āđŒ observability āļĢāļ°āļĒāļ°āļĒāļēāļ§

āļ„āļģāļ–āļēāļĄāļŠāļąāļĄāļ āļēāļĐāļ“āđŒ DevOps āļ”āđ‰āļēāļ™ Monitoring āđāļĨāļ° Observability

āļ„āļģāļ–āļēāļĄāļ•āđˆāļ­āđ„āļ›āļ™āļĩāđ‰āļžāļšāđ„āļ”āđ‰āļšāđˆāļ­āļĒāđƒāļ™āļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļ“āđŒāļ•āļģāđāļŦāļ™āđˆāļ‡ DevOps āđāļĨāļ° SRE āļ„āļģāļ•āļ­āļšāđāļ•āđˆāļĨāļ°āļ‚āđ‰āļ­āđ€āļ™āđ‰āļ™āđāļ™āļ§āļ„āļīāļ”āļ—āļĩāđˆāļœāļđāđ‰āļŠāļąāļĄāļ āļēāļĐāļ“āđŒāļ•āđ‰āļ­āļ‡āļāļēāļĢāļ—āļ”āļŠāļ­āļš

āļ–āļēāļĄ: āļ­āļ˜āļīāļšāļēāļĒāļ„āļ§āļēāļĄāđāļ•āļāļ•āđˆāļēāļ‡āļĢāļ°āļŦāļ§āđˆāļēāļ‡ monitoring, observability āđāļĨāļ° alerting

Monitoring āļ•āļīāļ”āļ•āļēāļĄ metrics āļ—āļĩāđˆāļāļģāļŦāļ™āļ”āđ„āļ§āđ‰āļĨāđˆāļ§āļ‡āļŦāļ™āđ‰āļēāđāļĨāļ°āļ•āļĢāļ§āļˆāļŠāļ­āļšāļĢāļđāļ›āđāļšāļšāļ„āļ§āļēāļĄāļĨāđ‰āļĄāđ€āļŦāļĨāļ§āļ—āļĩāđˆāļĢāļđāđ‰āļˆāļąāļ Observability āļŠāđˆāļ§āļĒāđƒāļŦāđ‰āļŠāļēāļĄāļēāļĢāļ–āļŠāļ·āļšāļŠāļ§āļ™āļĢāļđāļ›āđāļšāļšāļ„āļ§āļēāļĄāļĨāđ‰āļĄāđ€āļŦāļĨāļ§āļ—āļĩāđˆāđ„āļĄāđˆāļĢāļđāđ‰āļˆāļąāļāļœāđˆāļēāļ™ metrics, log āđāļĨāļ° trace ("āļŠāļēāļĄāđ€āļŠāļēāļŦāļĨāļąāļ") āļŠāđˆāļ§āļ™ alerting āļ„āļ·āļ­āļāļēāļĢāļŠāđˆāļ‡āļāļēāļĢāđāļˆāđ‰āļ‡āđ€āļ•āļ·āļ­āļ™āđ€āļĄāļ·āđˆāļ­āđ€āļ‡āļ·āđˆāļ­āļ™āđ„āļ‚āđ€āļāļīāļ™ threshold āļ—āļĩāđˆāļāļģāļŦāļ™āļ”āļŦāļĢāļ·āļ­ baseline āļ‚āļ­āļ‡ anomaly Monitoring āļ•āļ­āļšāļ„āļģāļ–āļēāļĄāļ§āđˆāļē "āļĢāļ°āļšāļšāļ—āļģāļ‡āļēāļ™āļ›āļāļ•āļīāļŦāļĢāļ·āļ­āđ„āļĄāđˆ" Observability āļ•āļ­āļšāļ„āļģāļ–āļēāļĄāļ§āđˆāļē "āļ—āļģāđ„āļĄāļĢāļ°āļšāļšāļˆāļķāļ‡āļ—āļģāļ‡āļēāļ™āļœāļīāļ”āļ›āļāļ•āļī"

āļ–āļēāļĄ: Prometheus āđ„āļĄāđˆāđ€āļŦāļĄāļēāļ°āļāļąāļšāļŠāļ–āļēāļ™āļāļēāļĢāļ“āđŒāđƒāļ”āļšāđ‰āļēāļ‡

Prometheus āļ–āļđāļāļ­āļ­āļāđāļšāļšāļĄāļēāđƒāļŦāđ‰āđ€āļ™āđ‰āļ™ reliability āļĄāļēāļāļāļ§āđˆāļē durability āļāļĨāđˆāļēāļ§āļ„āļ·āļ­āđƒāļŦāđ‰āļ„āļ§āļēāļĄāļŠāļģāļ„āļąāļāļāļąāļš availability āļ‚āļ­āļ‡āļĢāļ°āļšāļš monitoring āđ€āļ›āđ‡āļ™āļŦāļĨāļąāļ āļŠāļ–āļēāļ™āļāļēāļĢāļ“āđŒāļ—āļĩāđˆ Prometheus āļĄāļĩāļ‚āđ‰āļ­āļˆāļģāļāļąāļ” āđ„āļ”āđ‰āđāļāđˆ āļāļēāļĢāļˆāļąāļ”āđ€āļāđ‡āļšāļ‚āđ‰āļ­āļĄāļđāļĨāļĢāļ°āļĒāļ°āļĒāļēāļ§āđ€āļāļīāļ™ 30 āļ§āļąāļ™ (āļ•āđ‰āļ­āļ‡āđƒāļŠāđ‰ Thanos/Mimir/Cortex āļŠāđˆāļ§āļĒ) āļ‚āđ‰āļ­āļĄāļđāļĨāļāļēāļĢāđ€āļĢāļĩāļĒāļāđ€āļāđ‡āļšāđ€āļ‡āļīāļ™āđāļšāļš per-request āļ—āļĩāđˆāļ•āđ‰āļ­āļ‡āļāļēāļĢāļ„āļ§āļēāļĄāđāļĄāđˆāļ™āļĒāļģ 100% (Prometheus āļ­āļēāļˆāļ—āļīāđ‰āļ‡ sample āđ€āļĄāļ·āđˆāļ­āļĄāļĩ load āļŠāļđāļ‡) āđāļĨāļ°āļĢāļ°āļšāļšāđāļšāļš event-based āļ—āļĩāđˆāļ•āđ‰āļ­āļ‡āļāļēāļĢ push-based collection (āđāļĄāđ‰āļˆāļ°āļĄāļĩ pushgateway āđ€āļ›āđ‡āļ™āļ—āļēāļ‡āļ­āļ­āļ)

āļ–āļēāļĄ: āļ›āļĢāļąāļŠāļāļē "Big Tent" āļ‚āļ­āļ‡ Grafana āļŠāđˆāļ‡āļœāļĨāļ•āđˆāļ­āļŠāļ–āļēāļ›āļąāļ•āļĒāļāļĢāļĢāļĄ observability āļ­āļĒāđˆāļēāļ‡āđ„āļĢ

Grafana āđ€āļŠāļ·āđˆāļ­āļĄāļ•āđˆāļ­āļāļąāļš data source āđƒāļ”āļāđ‡āđ„āļ”āđ‰āđ‚āļ”āļĒāđ„āļĄāđˆāļ•āđ‰āļ­āļ‡ migrate āļ‚āđ‰āļ­āļĄāļđāļĨ āļ—āļģāđƒāļŦāđ‰āļ—āļĩāļĄāļŠāļēāļĄāļēāļĢāļ– query Prometheus, Elasticsearch, CloudWatch āđāļĨāļ° Datadog āļˆāļēāļ dashboard āđ€āļ”āļĩāļĒāļ§āļāļąāļ™ āļ‚āđ‰āļ­āđāļĨāļāđ€āļ›āļĨāļĩāđˆāļĒāļ™āļ„āļ·āļ­āļ„āļ§āļēāļĄāļ‹āļąāļšāļ‹āđ‰āļ­āļ™āļ”āđ‰āļēāļ™ operation āđ€āļ™āļ·āđˆāļ­āļ‡āļˆāļēāļāļāļēāļĢāļ”āļđāđāļĨ backend āļŦāļĨāļēāļĒāļ•āļąāļ§āļ•āđ‰āļ­āļ‡āđƒāļŠāđ‰āļ„āļ§āļēāļĄāđ€āļŠāļĩāđˆāļĒāļ§āļŠāļēāļāļ”āđ‰āļēāļ™ infrastructure āļĄāļēāļāļāļ§āđˆāļēāđāļ™āļ§āļ—āļēāļ‡ single-vendor āļœāļđāđ‰āļŠāļąāļĄāļ āļēāļĐāļ“āđŒāļ•āđ‰āļ­āļ‡āļāļēāļĢāļ—āļ”āļŠāļ­āļšāļ§āđˆāļēāļœāļđāđ‰āļŠāļĄāļąāļ„āļĢāļŠāļēāļĄāļēāļĢāļ–āļ­āļ˜āļīāļšāļēāļĒāļ‚āđ‰āļ­āđāļĨāļāđ€āļ›āļĨāļĩāđˆāļĒāļ™āļ™āļĩāđ‰āđ„āļ”āđ‰āļŠāļąāļ”āđ€āļˆāļ™āļŦāļĢāļ·āļ­āđ„āļĄāđˆ

āļ–āļēāļĄ: High-watermark billing āļ‚āļ­āļ‡ Datadog āļ„āļ·āļ­āļ­āļ°āđ„āļĢ āđāļĨāļ°āļĄāļĩāļ„āļ§āļēāļĄāļŠāļģāļ„āļąāļāļ­āļĒāđˆāļēāļ‡āđ„āļĢ

Datadog āļ§āļąāļ”āļˆāļģāļ™āļ§āļ™ host āļĢāļēāļĒāļŠāļąāđˆāļ§āđ‚āļĄāļ‡ āļ•āļąāļ”āļŠāļąāđˆāļ§āđ‚āļĄāļ‡āļ—āļĩāđˆāļŠāļđāļ‡āļ—āļĩāđˆāļŠāļļāļ” 1% āļ­āļ­āļ āđāļĨāđ‰āļ§āļ„āļīāļ”āđ€āļ‡āļīāļ™āļ•āļēāļĄ peak āļ—āļĩāđˆ percentile āļ—āļĩāđˆ 99 āļŦāļĄāļēāļĒāļ„āļ§āļēāļĄāļ§āđˆāļē auto-scaling spike āļŠāļąāđˆāļ§āļ„āļĢāļēāļ§ (āđ€āļŠāđˆāļ™ āļŠāđˆāļ§āļ‡ Black Friday) āļˆāļ°āļ—āļģāđƒāļŦāđ‰āļ„āđˆāļēāđƒāļŠāđ‰āļˆāđˆāļēāļĒāļĢāļēāļĒāđ€āļ”āļ·āļ­āļ™āļŠāļđāļ‡āļ‚āļķāđ‰āļ™āđāļĄāđ‰āļ§āđˆāļē instance āļˆāļ°āļ–āļđāļāļĒāļļāļ•āļīāđ„āļ›āđāļĨāđ‰āļ§ āļœāļđāđ‰āļŠāļĄāļąāļ„āļĢāļ—āļĩāđˆāļāļĨāđˆāļēāļ§āļ–āļķāļ‡āđ€āļĢāļ·āđˆāļ­āļ‡āļ™āļĩāđ‰āđāļŠāļ”āļ‡āđƒāļŦāđ‰āđ€āļŦāđ‡āļ™āļ§āđˆāļēāļĄāļĩāļ›āļĢāļ°āļŠāļšāļāļēāļĢāļ“āđŒāļˆāļĢāļīāļ‡āļ”āđ‰āļēāļ™āļāļēāļĢāļšāļĢāļīāļŦāļēāļĢāļ•āđ‰āļ™āļ—āļļāļ™ āļ‹āļķāđˆāļ‡āļ•āļģāđāļŦāļ™āđˆāļ‡ SRE āđƒāļ™āļ›āļąāļˆāļˆāļļāļšāļąāļ™āđƒāļŦāđ‰āļ„āļ§āļēāļĄāļŠāļģāļ„āļąāļāļĄāļēāļāļ‚āļķāđ‰āļ™

āļ–āļēāļĄ: āļāļĨāļĒāļļāļ—āļ˜āđŒ SLO-based alerting āđāļ•āļāļ•āđˆāļēāļ‡āļāļąāļ™āļ­āļĒāđˆāļēāļ‡āđ„āļĢāļĢāļ°āļŦāļ§āđˆāļēāļ‡ Prometheus āđāļĨāļ° Datadog

āđƒāļ™ Prometheus āļāļēāļĢāđāļˆāđ‰āļ‡āđ€āļ•āļ·āļ­āļ™āđāļšāļš SLO āđƒāļŠāđ‰ recording rule āđ€āļžāļ·āđˆāļ­āļ„āļģāļ™āļ§āļ“ error budget āđāļĨāļ° burn rate alert āļĨāđˆāļ§āļ‡āļŦāļ™āđ‰āļē (āđāļ™āļ§āļ—āļēāļ‡ multi-window, multi-burn-rate āļˆāļēāļāļŦāļ™āļąāļ‡āļŠāļ·āļ­ SRE āļ‚āļ­āļ‡ Google) āļŠāđˆāļ§āļ™ Datadog āļĄāļĩ SLO widget āđāļĨāļ° monitor āļ—āļĩāđˆāļ•āļīāļ”āļ•āļēāļĄ burn rate āđ‚āļ”āļĒāļ­āļąāļ•āđ‚āļ™āļĄāļąāļ•āļī āļ—āļąāđ‰āļ‡āļŠāļ­āļ‡āđāļ™āļ§āļ—āļēāļ‡āđƒāļŠāđ‰āđāļ™āļ§āļ„āļīāļ”āđ€āļ”āļĩāļĒāļ§āļāļąāļ™ āđāļ•āđˆ Prometheus āļ•āđ‰āļ­āļ‡āļ•āļąāđ‰āļ‡āļ„āđˆāļēāļ”āđ‰āļ§āļĒāļ•āļ™āđ€āļ­āļ‡āļĄāļēāļāļāļ§āđˆāļē āđƒāļ™āļ‚āļ“āļ°āļ—āļĩāđˆ Datadog āļĄāļĩ workflow āļ—āļĩāđˆāļˆāļąāļ”āļāļēāļĢāđƒāļŦāđ‰ āļœāļđāđ‰āļŠāļĄāļąāļ„āļĢāļ„āļ§āļĢāļ­āđ‰āļēāļ‡āļ­āļīāļ‡ burn rate window (1 āļŠāļąāđˆāļ§āđ‚āļĄāļ‡, 6 āļŠāļąāđˆāļ§āđ‚āļĄāļ‡, 3 āļ§āļąāļ™) āđāļĨāļ°āļ­āļąāļ•āļĢāļēāļāļēāļĢāđƒāļŠāđ‰ error budget āđƒāļ™āļ„āļģāļ•āļ­āļš

āļŠāļģāļŦāļĢāļąāļšāļāļēāļĢāļāļķāļāļāļ™āļŦāļąāļ§āļ‚āđ‰āļ­ monitoring āđ€āļžāļīāđˆāļĄāđ€āļ•āļīāļĄ āđ‚āļĄāļ”āļđāļĨāļ„āļģāļ–āļēāļĄāļŠāļąāļĄāļ āļēāļĐāļ“āđŒ Prometheus āđāļĨāļ° monitoring āļ„āļĢāļ­āļšāļ„āļĨāļļāļĄāļŠāļ–āļēāļ™āļāļēāļĢāļ“āđŒāļˆāļģāļĨāļ­āļ‡āđ€āļžāļīāđˆāļĄāđ€āļ•āļīāļĄāļžāļĢāđ‰āļ­āļĄāļ„āļģāļ­āļ˜āļīāļšāļēāļĒāđ‚āļ”āļĒāļĨāļ°āđ€āļ­āļĩāļĒāļ”

Decision Framework: āļāļēāļĢāđ€āļĨāļ·āļ­āļ Stack āļ—āļĩāđˆāđ€āļŦāļĄāļēāļ°āļŠāļĄ

| Scenario | Recommended Stack | Rationale | |----------|------------------|----------| | Startup āļ—āļĩāļĄāļ§āļīāļĻāļ§āļāļĢ < 10 āļ„āļ™ | Datadog āļŦāļĢāļ·āļ­ Grafana Cloud | āļĨāļ”āļ āļēāļĢāļ°āļ”āđ‰āļēāļ™ operation āđƒāļŦāđ‰āļ™āđ‰āļ­āļĒāļ—āļĩāđˆāļŠāļļāļ” | | āļ­āļ‡āļ„āđŒāļāļĢāļ‚āļ™āļēāļ”āđƒāļŦāļāđˆāļ—āļĩāđˆāļĄāļĩ platform team | Prometheus + Grafana + Loki | āļ„āļ§āļšāļ„āļļāļĄāđ„āļ”āđ‰āđ€āļ•āđ‡āļĄāļ—āļĩāđˆ āļ•āđ‰āļ™āļ—āļļāļ™āļ•āđˆāļ­āļŦāļ™āđˆāļ§āļĒāļ•āđˆāļģāļāļ§āđˆāļēāđ€āļĄāļ·āđˆāļ­ scale | | Multi-cloud / hybrid | Prometheus + Grafana | āđ€āļ›āđ‡āļ™āļāļĨāļēāļ‡āļ•āđˆāļ­ vendor āļ—āļģāļ‡āļēāļ™āđ€āļŦāļĄāļ·āļ­āļ™āļāļąāļ™āļ—āļļāļ environment | | āļ­āļļāļ•āļŠāļēāļŦāļāļĢāļĢāļĄāļ—āļĩāđˆāļ•āđ‰āļ­āļ‡ compliance āļŠāļđāļ‡ (āļāļēāļĢāđ€āļ‡āļīāļ™, āļŠāļēāļ˜āļēāļĢāļ“āļŠāļļāļ‚) | Self-hosted Prometheus + Grafana | āļ‚āđ‰āļ­āļĄāļđāļĨāļ­āļĒāļđāđˆāļ āļēāļĒāđƒāļ™āļ­āļ‡āļ„āđŒāļāļĢ | | Scaling āļĢāļ§āļ”āđ€āļĢāđ‡āļ§ āļāļēāļĢāđ€āļ•āļīāļšāđ‚āļ•āđ„āļĄāđˆāđāļ™āđˆāļ™āļ­āļ™ | Grafana Cloud (managed Mimir) | Scale āđ„āļ”āđ‰āđ‚āļ”āļĒāđ„āļĄāđˆāļ•āđ‰āļ­āļ‡āļˆāļąāļ”āļāļēāļĢ infrastructure | | āļ•āđ‰āļ­āļ‡āļāļēāļĢ anomaly detection āđāļšāļš ML | Datadog | Watchdog āļ—āļģāļ‡āļēāļ™āđ‚āļ”āļĒāđ„āļĄāđˆāļ•āđ‰āļ­āļ‡āļ•āļąāđ‰āļ‡āļ„āđˆāļē |

āļāļēāļĢāđ€āļĨāļ·āļ­āļāļ—āļĩāđˆāđ€āļŦāļĄāļēāļ°āļŠāļĄāļ‚āļķāđ‰āļ™āļ­āļĒāļđāđˆāļāļąāļšāļ•āļąāļ§āđāļ›āļĢāļŠāļēāļĄāļ›āļĢāļ°āļāļēāļĢ āđ„āļ”āđ‰āđāļāđˆ āļ‚āļ™āļēāļ”āļ—āļĩāļĄ āļ„āļ§āļēāļĄāļžāļĢāđ‰āļ­āļĄāļ”āđ‰āļēāļ™ operation āđāļĨāļ°āļ‚āđ‰āļ­āļˆāļģāļāļąāļ”āļ”āđ‰āļēāļ™āļ‡āļšāļ›āļĢāļ°āļĄāļēāļ“ āđ„āļĄāđˆāļĄāļĩāļ„āļģāļ•āļ­āļšāļ—āļĩāđˆāļ–āļđāļāļ•āđ‰āļ­āļ‡āļŠāļēāļāļĨ āđāļĨāļ°āļœāļđāđ‰āļŠāļąāļĄāļ āļēāļĐāļ“āđŒāļ„āļēāļ”āļŦāļ§āļąāļ‡āđƒāļŦāđ‰āļœāļđāđ‰āļŠāļĄāļąāļ„āļĢāļ§āļīāđ€āļ„āļĢāļēāļ°āļŦāđŒāļ‚āđ‰āļ­āđāļĨāļāđ€āļ›āļĨāļĩāđˆāļĒāļ™āļ­āļĒāđˆāļēāļ‡āđ€āļ›āđ‡āļ™āđ€āļŦāļ•āļļāđ€āļ›āđ‡āļ™āļœāļĨāļĄāļēāļāļāļ§āđˆāļēāļ—āļĩāđˆāļˆāļ°āļĒāļ·āļ™āļĒāļąāļ™āļ§āđˆāļēāđ€āļ„āļĢāļ·āđˆāļ­āļ‡āļĄāļ·āļ­āđƒāļ”āđ€āļ„āļĢāļ·āđˆāļ­āļ‡āļĄāļ·āļ­āļŦāļ™āļķāđˆāļ‡āļ”āļĩāļ—āļĩāđˆāļŠāļļāļ”

āđ€āļĢāļīāđˆāļĄāļāļķāļāļ‹āđ‰āļ­āļĄāđ€āļĨāļĒ!

āļ—āļ”āļŠāļ­āļšāļ„āļ§āļēāļĄāļĢāļđāđ‰āļ‚āļ­āļ‡āļ„āļļāļ“āļ”āđ‰āļ§āļĒāļ•āļąāļ§āļˆāļģāļĨāļ­āļ‡āļŠāļąāļĄāļ āļēāļĐāļ“āđŒāđāļĨāļ°āđāļšāļšāļ—āļ”āļŠāļ­āļšāđ€āļ—āļ„āļ™āļīāļ„āļ„āļĢāļąāļš

āļŠāļĢāļļāļ›

  • Prometheus āđ€āļ›āđ‡āļ™āļĄāļēāļ•āļĢāļāļēāļ™āļŠāļģāļŦāļĢāļąāļšāļāļēāļĢāđ€āļāđ‡āļšāļĢāļ§āļšāļĢāļ§āļĄ metrics āđƒāļ™ Kubernetes environment āđ‚āļ”āļĒāđ€āļ§āļ­āļĢāđŒāļŠāļąāļ™ 3.x āđƒāļ™ 2026 āļĄāļēāļžāļĢāđ‰āļ­āļĄ native OTLP support āđāļĨāļ° native histogram āļ—āļĩāđˆāđ€āļŠāļ–āļĩāļĒāļĢ
  • Grafana āļ„āļ·āļ­ visualization layer āđ„āļĄāđˆāđƒāļŠāđˆ metrics database āđ€āļŠāļ·āđˆāļ­āļĄāļ•āđˆāļ­āļāļąāļš data source āļāļ§āđˆāļē 100 āļ•āļąāļ§āļĢāļ§āļĄāļ–āļķāļ‡ Prometheus āđāļĨāļ° LGTM stack (Loki, Grafana, Tempo, Mimir) āļ›āļĢāļ°āļāļ­āļšāđ€āļ›āđ‡āļ™āđāļžāļĨāļ•āļŸāļ­āļĢāđŒāļĄ observability āđāļšāļš open-source āļ„āļĢāļšāļ§āļ‡āļˆāļĢ
  • Datadog āđƒāļŦāđ‰āđ€āļŠāđ‰āļ™āļ—āļēāļ‡āļ—āļĩāđˆāđ€āļĢāđ‡āļ§āļ—āļĩāđˆāļŠāļļāļ”āļŠāļđāđˆ full-stack observability āļžāļĢāđ‰āļ­āļĄ alerting āļ—āļĩāđˆāļ‚āļąāļšāđ€āļ„āļĨāļ·āđˆāļ­āļ™āļ”āđ‰āļ§āļĒ ML āđāļĨāļāļāļąāļšāļĢāļēāļ„āļēāļ—āļĩāđˆāļŠāļđāļ‡āļāļ§āđˆāļēāđāļĨāļ° vendor lock-in
  • āļāļēāļĢāļ™āļģ OpenTelemetry āļĄāļēāđƒāļŠāđ‰āļ—āļģāđƒāļŦāđ‰āļ•āļąāļ§āđ€āļĨāļ·āļ­āļ backend āļĄāļĩāļ„āļ§āļēāļĄāļĒāļ·āļ”āļŦāļĒāļļāđˆāļ™āļĄāļēāļāļ‚āļķāđ‰āļ™ āđ€āļžāļĢāļēāļ° instrumentation āļĒāļąāļ‡āļ„āļ‡āđ€āļŦāļĄāļ·āļ­āļ™āđ€āļ”āļīāļĄāđ„āļĄāđˆāļ§āđˆāļēāļˆāļ°āđƒāļŠāđ‰āđ€āļ„āļĢāļ·āđˆāļ­āļ‡āļĄāļ·āļ­āđƒāļ”āļˆāļąāļ”āđ€āļāđ‡āļšāđāļĨāļ° query āļ‚āđ‰āļ­āļĄāļđāļĨ
  • āđƒāļ™āļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļ“āđŒ āļ„āļ§āļĢāđāļŠāļ”āļ‡āļ„āļ§āļēāļĄāļŠāļēāļĄāļēāļĢāļ–āđƒāļ™āļāļēāļĢāļ§āļīāđ€āļ„āļĢāļēāļ°āļŦāđŒāļ‚āđ‰āļ­āđāļĨāļāđ€āļ›āļĨāļĩāđˆāļĒāļ™ (āļ•āđ‰āļ™āļ—āļļāļ™ āļāļēāļĢāļ„āļ§āļšāļ„āļļāļĄ āļ„āļ§āļēāļĄāļ‹āļąāļšāļ‹āđ‰āļ­āļ™) āļĄāļēāļāļāļ§āđˆāļēāļāļēāļĢāļŠāļ™āļąāļšāļŠāļ™āļļāļ™āđ€āļ„āļĢāļ·āđˆāļ­āļ‡āļĄāļ·āļ­āđƒāļ”āđ€āļ„āļĢāļ·āđˆāļ­āļ‡āļĄāļ·āļ­āđ€āļ”āļĩāļĒāļ§
  • āļŠāļģāļŦāļĢāļąāļšāļāļēāļĢāđ€āļ•āļĢāļĩāļĒāļĄāļ•āļąāļ§āđ€āļŠāļīāļ‡āļ›āļāļīāļšāļąāļ•āļī āļŠāļēāļĄāļēāļĢāļ–āļāļķāļāļāļ™āđ„āļ”āđ‰āļ—āļĩāđˆāđ‚āļĄāļ”āļđāļĨāļ„āļģāļ–āļēāļĄāļŠāļąāļĄāļ āļēāļĐāļ“āđŒ DevOps āđāļĨāļ°āļĻāļķāļāļĐāļēāđ€āļžāļīāđˆāļĄāđ€āļ•āļīāļĄāđ€āļāļĩāđˆāļĒāļ§āļāļąāļšāđāļ™āļ§āļ„āļīāļ” CI/CD pipeline āđ€āļžāļ·āđˆāļ­āđ€āļŠāļĢāļīāļĄāļ„āļ§āļēāļĄāļĢāļđāđ‰āđƒāļ™āļŦāļąāļ§āļ‚āđ‰āļ­āļ—āļĩāđˆāđ€āļāļĩāđˆāļĒāļ§āļ‚āđ‰āļ­āļ‡

āđāļ—āđ‡āļ

#devops
#monitoring
#prometheus
#grafana
#datadog
#observability

āđāļŠāļĢāđŒ

āļšāļ—āļ„āļ§āļēāļĄāļ—āļĩāđˆāđ€āļāļĩāđˆāļĒāļ§āļ‚āđ‰āļ­āļ‡

āļ„āļđāđˆāļĄāļ·āļ­ Kubernetes āļŠāļģāļŦāļĢāļąāļšāļāļēāļĢāļ”āļĩāļžāļĨāļ­āļĒāđāļ­āļ›āļžāļĨāļīāđ€āļ„āļŠāļąāļ™āđāļĢāļ

Kubernetes: āļ”āļĩāļžāļĨāļ­āļĒāđāļ­āļ›āļžāļĨāļīāđ€āļ„āļŠāļąāļ™āđāļĢāļ

āļ„āļđāđˆāļĄāļ·āļ­āđ€āļŠāļīāļ‡āļ›āļāļīāļšāļąāļ•āļīāļŠāļģāļŦāļĢāļąāļšāļāļēāļĢāļ”āļĩāļžāļĨāļ­āļĒāđāļ­āļ›āļžāļĨāļīāđ€āļ„āļŠāļąāļ™āļšāļ™ Kubernetes āļ•āļąāđ‰āļ‡āđāļ•āđˆāļāļēāļĢāļ•āļīāļ”āļ•āļąāđ‰āļ‡ minikube āđ„āļ›āļˆāļ™āļ–āļķāļ‡ Deployments, Services āđāļĨāļ° ConfigMaps āļžāļĢāđ‰āļ­āļĄāļ•āļąāļ§āļ­āļĒāđˆāļēāļ‡āļ—āļĩāđˆāđ€āļ›āđ‡āļ™āļĢāļđāļ›āļ˜āļĢāļĢāļĄ

āļ„āļģāļ–āļēāļĄāļŠāļąāļĄāļ āļēāļĐāļ“āđŒ DevOps āļ—āļĩāđˆāļˆāļģāđ€āļ›āđ‡āļ™

āļ„āļģāļ–āļēāļĄāļŠāļąāļĄāļ āļēāļĐāļ“āđŒ DevOps āļ—āļĩāđˆāļˆāļģāđ€āļ›āđ‡āļ™: āļ„āļđāđˆāļĄāļ·āļ­āļ‰āļšāļąāļšāļŠāļĄāļšāļđāļĢāļ“āđŒ 2026

āđ€āļ•āļĢāļĩāļĒāļĄāļ•āļąāļ§āļŠāļąāļĄāļ āļēāļĐāļ“āđŒ DevOps āļ”āđ‰āļ§āļĒāļ„āļģāļ–āļēāļĄāļ—āļĩāđˆāļ•āđ‰āļ­āļ‡āļĢāļđāđ‰āđ€āļāļĩāđˆāļĒāļ§āļāļąāļš CI/CD, Kubernetes, Docker, Terraform āđāļĨāļ°āđāļ™āļ§āļ›āļāļīāļšāļąāļ•āļī SRE āļžāļĢāđ‰āļ­āļĄāļ„āļģāļ•āļ­āļšāļĨāļ°āđ€āļ­āļĩāļĒāļ”

āļ„āļđāđˆāļĄāļ·āļ­ Docker āļˆāļēāļāļāļēāļĢāļžāļąāļ’āļ™āļēāļŠāļđāđˆāļāļēāļĢāđƒāļŠāđ‰āļ‡āļēāļ™āļˆāļĢāļīāļ‡

Docker: āļˆāļēāļāļāļēāļĢāļžāļąāļ’āļ™āļēāļŠāļđāđˆāļāļēāļĢāđƒāļŠāđ‰āļ‡āļēāļ™āļˆāļĢāļīāļ‡

āļ„āļđāđˆāļĄāļ·āļ­ Docker āļ‰āļšāļąāļšāļŠāļĄāļšāļđāļĢāļ“āđŒāļŠāļģāļŦāļĢāļąāļšāļāļēāļĢ containerize āđāļ­āļ›āļžāļĨāļīāđ€āļ„āļŠāļąāļ™ Dockerfile, Docker Compose, multi-stage build āđāļĨāļ°āļāļēāļĢ deploy āļŠāļđāđˆ production āļžāļĢāđ‰āļ­āļĄāļ•āļąāļ§āļ­āļĒāđˆāļēāļ‡āļˆāļĢāļīāļ‡