Question 1

O que é logging estruturado no contexto de um pipeline de dados?

Accepted Answer

Logging estruturado significa emitir logs em um formato parseável (JSON, key-value) em vez de texto livre. Isso permite filtrar, pesquisar e agregar facilmente os logs em ferramentas como Cloud Logging, Elasticsearch ou Datadog. Em um pipeline de dados, isso facilita muito o debugging ao permitir filtrar por DAG, task_id, run_id ou qualquer contexto de negócio.

Question 2

Qual é a diferença entre um SLI (Service Level Indicator) e um SLO (Service Level Objective)?

Accepted Answer

Um SLI é uma métrica mensurável que quantifica um aspecto da qualidade do serviço (ex: taxa de sucesso de jobs, latência do pipeline). Um SLO é um alvo definido sobre essa métrica (ex: 99.5% dos jobs devem ter sucesso). O SLA é o compromisso contratual com os clientes baseado nos SLOs internos. Essa hierarquia permite monitorar objetivamente a confiabilidade e disparar alertas antes de violar os SLAs.

Question 3

O que é uma Expectation em Great Expectations?

Accepted Answer

Uma Expectation é uma asserção declarativa sobre os dados, como expect_column_values_to_not_be_null ou expect_column_values_to_be_between. Great Expectations gera automaticamente documentação e resultados de validação acionáveis. Essas Expectations são agrupadas em Suites que definem o contrato de qualidade completo de um dataset.

Monitoramento e observabilidade

O que é logging estruturado no contexto de um pipeline de dados?

Resposta

Qual é a diferença entre um SLI (Service Level Indicator) e um SLO (Service Level Objective)?

Resposta

O que é uma Expectation em Great Expectations?

Resposta

Qual é o papel principal de Soda em um pipeline de dados?

O que é um runbook no contexto da gestão de incidentes de dados?

Outros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avançado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD e qualidade de código

Docker Compose

FastAPI - APIs de dados

SQL avançado para Data Engineering

Data Lake - Arquitetura e ingestão

BigQuery para Data Engineering

PostgreSQL - Administração

Data Modeling para Data Engineering

Fivetran & Airbyte - Ingestão de dados

dbt - Fundamentos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Recursos avançados

Padrões ETL / ELT / ETLT

Apache Airflow - Avançado

Airflow + dbt - Orquestração de pipelines

PySpark - Processamento em grande escala

Google Pub/Sub - Streaming de dados

Apache Beam & Dataflow

Kubernetes - Produção e escalabilidade

Terraform - Infrastructure as Code

Bancos de dados NoSQL

Arquitetura Data moderna

IAM e segurança de dados

Domine Data Engineering para sua proxima entrevista