Data Engineering

DATA

Programa completo de Data Engineering cobrindo toda a cadeia de produção de dados. Da configuração de ambientes com Docker e GCP à orquestração de pipelines com Airflow e dbt, passando pela criação de Data Warehouses com BigQuery e PostgreSQL. Aprenda a lidar com streaming de dados com PySpark, Pub/Sub e Apache Beam, e a implantar em produção com Kubernetes e Terraform. Domine as melhores práticas de CI/CD, monitoramento e arquiteturas de dados modernas.

O que voce vai aprender

Ambientes de desenvolvimento: Linux, Git, GitHub, VS Code, Python avançado

CI/CD e qualidade de código: Ruff, Pylint, Poetry, GitHub Actions

Containerização com Docker e Docker Compose

APIs com FastAPI: design, implantação, documentação

Data Lake: ingestão, armazenamento, organização de dados brutos

Data Warehouse com BigQuery: esquemas, particionamento, otimização

PostgreSQL: configuração, administração, comparação com soluções gerenciadas

Ingestão de dados com Fivetran e Airbyte

Transformação com dbt: models, tests, documentação, modularidade

Orquestração com Apache Airflow: DAGs, scheduling, monitoramento

Big Data com PySpark: transformações em larga escala

Streaming de dados: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: implantação de contêineres, scaling, clusters de produção

Infrastructure as Code com Terraform

Bancos de dados avançados: GraphDB, Document DBs, Wide Column DBs

Logging, monitoramento e observabilidade de pipelines

Topicos-chave para dominar

Os conceitos mais importantes para entender esta tecnologia e mandar bem nas entrevistas

Linux e Shell: comandos essenciais, scripting bash, permissões, cron jobs

Git e GitHub: branching, merge, rebase, pull requests, CI/CD workflows

Python avançado: POO, decorators, generators, context managers, typing, async/await

CI/CD: linting (Ruff, Pylint), packaging (Poetry), tests, GitHub Actions, pipelines

Docker: Dockerfile, imagens, contêineres, volumes, networks, multi-stage builds

Docker Compose: serviços multi-contêiner, dependências, healthchecks, orquestração local

FastAPI: rotas, modelos Pydantic, dependências, middleware, implantação

SQL avançado: window functions, CTEs, consultas analíticas, otimização, indexação

BigQuery: arquitetura serverless, particionamento, clustering, custos, UDFs, federated queries

PostgreSQL: configuração, replicação, indexação (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

Modelagem de Dados: esquema estrela, tabelas fato/dimensão, normalização, SCD, data vault

ELT vs ETL vs ETLT: padrões, trade-offs, decisões de arquitetura

Fivetran e Airbyte: conectores, modos de sincronização, CDC, evolução de esquema

dbt: models, sources, refs, tests, snapshots, incremental models, Jinja macros

Apache Airflow: DAGs, operators, sensors, XCom, connections, pools, dependências de tarefas

PySpark: RDD vs DataFrame, transformações, actions, partitioning, broadcast variables

Streaming: Pub/Sub (topics, subscriptions), Apache Beam (PCollections, transforms, windowing), Dataflow

Kubernetes: pods, deployments, services, ingress, ConfigMaps, Secrets, Helm, scaling

Terraform: providers, resources, state, modules, plan/apply, infrastructure as code

IAM e segurança: princípios de privilégio mínimo, service accounts, roles do GCP

Bancos de dados NoSQL: GraphDB (Neo4j), Document DBs (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

Arquitetura de dados: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contracts

Monitoramento e observabilidade: logging, métricas, alertas, SLA/SLO/SLI, data quality checks

Artigos recentes sobre Data Engineering

Descubra nossos ultimos artigos e guias sobre Data Engineering

Apache Spark 4 novos recursos e streaming estruturado

May 11, 2026

Apache Spark 4 em 2026: Novos Recursos, Structured Streaming e Perguntas de Entrevista

Guia completo do Apache Spark 4 com modo ANSI SQL, tipo VARIANT, Real-Time Streaming e perguntas de entrevista para engenheiros de dados.

Arquitetura de streaming do Apache Kafka com particoes e fluxo de dados para engenharia de dados

April 20, 2026

Apache Kafka para Engenheiros de Dados: Particionamento, Consumer Groups e Pipelines de Streaming

Guia completo de Apache Kafka para engenharia de dados: arquitetura KRaft, estrategias de particionamento, consumer groups, CDC com Debezium, exactly-once semantics, Share Groups e perguntas de entrevista com exemplos praticos em Python.

Diagrama comparativo de arquiteturas ETL e ELT mostrando fluxo de dados entre fontes, transformação e data warehouse

April 13, 2026

ETL vs ELT em 2026: Arquitetura de Pipelines de Dados Explicada

Comparação completa entre arquiteturas ETL e ELT para pipelines de dados em 2026, incluindo análise de custos, performance, exemplos de código e critérios de decisão para engenheiros de dados.

Ver todos os artigos de Data Engineering