
Monitoreo y observabilidad
Logging estructurado, métricas, alerting, SLA/SLO/SLI, data quality checks, Great Expectations, Soda
1¿Qué es el logging estructurado en el contexto de un pipeline de datos?
¿Qué es el logging estructurado en el contexto de un pipeline de datos?
Respuesta
El logging estructurado consiste en emitir logs en un formato parseable (JSON, key-value) en lugar de texto libre. Esto permite filtrar, buscar y agregar fácilmente los logs en herramientas como Cloud Logging, Elasticsearch o Datadog. En un pipeline de datos, esto facilita enormemente el debugging al permitir filtrar por DAG, task_id, run_id o cualquier contexto de negocio.
2¿Cuál es la diferencia entre un SLI (Service Level Indicator) y un SLO (Service Level Objective)?
¿Cuál es la diferencia entre un SLI (Service Level Indicator) y un SLO (Service Level Objective)?
Respuesta
Un SLI es una métrica medible que cuantifica un aspecto de la calidad del servicio (ej: tasa de éxito de jobs, latencia del pipeline). Un SLO es un objetivo definido sobre esa métrica (ej: 99.5% de los jobs deben tener éxito). El SLA es el compromiso contractual con los clientes basado en los SLO internos. Esta jerarquía permite monitorear objetivamente la confiabilidad y disparar alertas antes de violar los SLA.
3¿Qué es una Expectation en Great Expectations?
¿Qué es una Expectation en Great Expectations?
Respuesta
Una Expectation es una aserción declarativa sobre los datos, como expect_column_values_to_not_be_null o expect_column_values_to_be_between. Great Expectations genera automáticamente documentación y resultados de validación accionables. Estas Expectations se agrupan en Suites que definen el contrato de calidad completo de un dataset.
¿Cuál es el rol principal de Soda en un pipeline de datos?
¿Qué es un runbook en el contexto de la gestión de incidentes de datos?
+17 preguntas de entrevista
Otros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avanzado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD y calidad de código
Docker Compose
FastAPI - APIs de datos
SQL avanzado para Data Engineering
Data Lake - Arquitectura e ingesta
BigQuery para Data Engineering
PostgreSQL - Administración
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingesta de datos
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Funcionalidades avanzadas
Patrones ETL / ELT / ETLT
Apache Airflow - Avanzado
Airflow + dbt - Orquestación de pipelines
PySpark - Procesamiento a gran escala
Google Pub/Sub - Streaming de datos
Apache Beam & Dataflow
Kubernetes - Producción y escalado
Terraform - Infrastructure as Code
Bases de datos NoSQL
Arquitectura Data moderna
IAM y seguridad de datos
Domina Data Engineering para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis