Question 1

¿Qué es el logging estructurado en el contexto de un pipeline de datos?

Accepted Answer

El logging estructurado consiste en emitir logs en un formato parseable (JSON, key-value) en lugar de texto libre. Esto permite filtrar, buscar y agregar fácilmente los logs en herramientas como Cloud Logging, Elasticsearch o Datadog. En un pipeline de datos, esto facilita enormemente el debugging al permitir filtrar por DAG, task_id, run_id o cualquier contexto de negocio.

Question 2

¿Cuál es la diferencia entre un SLI (Service Level Indicator) y un SLO (Service Level Objective)?

Accepted Answer

Un SLI es una métrica medible que cuantifica un aspecto de la calidad del servicio (ej: tasa de éxito de jobs, latencia del pipeline). Un SLO es un objetivo definido sobre esa métrica (ej: 99.5% de los jobs deben tener éxito). El SLA es el compromiso contractual con los clientes basado en los SLO internos. Esta jerarquía permite monitorear objetivamente la confiabilidad y disparar alertas antes de violar los SLA.

Question 3

¿Qué es una Expectation en Great Expectations?

Accepted Answer

Una Expectation es una aserción declarativa sobre los datos, como expect_column_values_to_not_be_null o expect_column_values_to_be_between. Great Expectations genera automáticamente documentación y resultados de validación accionables. Estas Expectations se agrupan en Suites que definen el contrato de calidad completo de un dataset.

Monitoreo y observabilidad

¿Qué es el logging estructurado en el contexto de un pipeline de datos?

Respuesta

¿Cuál es la diferencia entre un SLI (Service Level Indicator) y un SLO (Service Level Objective)?

Respuesta

¿Qué es una Expectation en Great Expectations?

Respuesta

¿Cuál es el rol principal de Soda en un pipeline de datos?

¿Qué es un runbook en el contexto de la gestión de incidentes de datos?

Otros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avanzado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD y calidad de código

Docker Compose

FastAPI - APIs de datos

SQL avanzado para Data Engineering

Data Lake - Arquitectura e ingesta

BigQuery para Data Engineering

PostgreSQL - Administración

Data Modeling para Data Engineering

Fivetran & Airbyte - Ingesta de datos

dbt - Fundamentos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Funcionalidades avanzadas

Patrones ETL / ELT / ETLT

Apache Airflow - Avanzado

Airflow + dbt - Orquestación de pipelines

PySpark - Procesamiento a gran escala

Google Pub/Sub - Streaming de datos

Apache Beam & Dataflow

Kubernetes - Producción y escalado

Terraform - Infrastructure as Code

Bases de datos NoSQL

Arquitectura Data moderna

IAM y seguridad de datos

Domina Data Engineering para tu próxima entrevista