Data Engineering

Data Engineering

DATA

Programa completo de Data Engineering cobrindo toda a cadeia de produção de dados. Da configuração de ambientes com Docker e GCP à orquestração de pipelines com Airflow e dbt, passando pela criação de Data Warehouses com BigQuery e PostgreSQL. Aprenda a lidar com streaming de dados com PySpark, Pub/Sub e Apache Beam, e a implantar em produção com Kubernetes e Terraform. Domine as melhores práticas de CI/CD, monitoramento e arquiteturas de dados modernas.

O que voce vai aprender

Ambientes de desenvolvimento: Linux, Git, GitHub, VS Code, Python avançado

CI/CD e qualidade de código: Ruff, Pylint, Poetry, GitHub Actions

Containerização com Docker e Docker Compose

APIs com FastAPI: design, implantação, documentação

Data Lake: ingestão, armazenamento, organização de dados brutos

Data Warehouse com BigQuery: esquemas, particionamento, otimização

PostgreSQL: configuração, administração, comparação com soluções gerenciadas

Ingestão de dados com Fivetran e Airbyte

Transformação com dbt: models, tests, documentação, modularidade

Orquestração com Apache Airflow: DAGs, scheduling, monitoramento

Big Data com PySpark: transformações em larga escala

Streaming de dados: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: implantação de contêineres, scaling, clusters de produção

Infrastructure as Code com Terraform

Bancos de dados avançados: GraphDB, Document DBs, Wide Column DBs

Logging, monitoramento e observabilidade de pipelines

Topicos-chave para dominar

Os conceitos mais importantes para entender esta tecnologia e mandar bem nas entrevistas

1

Linux e Shell: comandos essenciais, scripting bash, permissões, cron jobs

2

Git e GitHub: branching, merge, rebase, pull requests, CI/CD workflows

3

Python avançado: POO, decorators, generators, context managers, typing, async/await

4

CI/CD: linting (Ruff, Pylint), packaging (Poetry), tests, GitHub Actions, pipelines

5

Docker: Dockerfile, imagens, contêineres, volumes, networks, multi-stage builds

6

Docker Compose: serviços multi-contêiner, dependências, healthchecks, orquestração local

7

FastAPI: rotas, modelos Pydantic, dependências, middleware, implantação

8

SQL avançado: window functions, CTEs, consultas analíticas, otimização, indexação

9

BigQuery: arquitetura serverless, particionamento, clustering, custos, UDFs, federated queries

10

PostgreSQL: configuração, replicação, indexação (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

11

Modelagem de Dados: esquema estrela, tabelas fato/dimensão, normalização, SCD, data vault

12

ELT vs ETL vs ETLT: padrões, trade-offs, decisões de arquitetura

13

Fivetran e Airbyte: conectores, modos de sincronização, CDC, evolução de esquema

14

dbt: models, sources, refs, tests, snapshots, incremental models, Jinja macros

15

Apache Airflow: DAGs, operators, sensors, XCom, connections, pools, dependências de tarefas

16

PySpark: RDD vs DataFrame, transformações, actions, partitioning, broadcast variables

17

Streaming: Pub/Sub (topics, subscriptions), Apache Beam (PCollections, transforms, windowing), Dataflow

18

Kubernetes: pods, deployments, services, ingress, ConfigMaps, Secrets, Helm, scaling

19

Terraform: providers, resources, state, modules, plan/apply, infrastructure as code

20

IAM e segurança: princípios de privilégio mínimo, service accounts, roles do GCP

21

Bancos de dados NoSQL: GraphDB (Neo4j), Document DBs (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

22

Arquitetura de dados: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contracts

23

Monitoramento e observabilidade: logging, métricas, alertas, SLA/SLO/SLI, data quality checks