Data Engineering

Data Engineering

DATA

Programa completo de Data Engineering que cubre toda la cadena de producción de datos. Desde la configuración de entornos con Docker y GCP hasta la orquestación de pipelines con Airflow y dbt, pasando por la creación de Data Warehouses con BigQuery y PostgreSQL. Aprende a manejar streaming de datos con PySpark, Pub/Sub y Apache Beam, y a desplegar en producción con Kubernetes y Terraform. Domina las mejores prácticas de CI/CD, monitoreo y arquitecturas de datos modernas.

Lo que aprenderás

Entornos de desarrollo: Linux, Git, GitHub, VS Code, Python avanzado

CI/CD y calidad de código: Ruff, Pylint, Poetry, GitHub Actions

Contenedorización con Docker y Docker Compose

APIs con FastAPI: diseño, despliegue, documentación

Data Lake: ingestión, almacenamiento, organización de datos crudos

Data Warehouse con BigQuery: esquemas, particionamiento, optimización

PostgreSQL: configuración, administración, comparación con soluciones administradas

Ingestión de datos con Fivetran y Airbyte

Transformación con dbt: models, tests, documentación, modularidad

Orquestación con Apache Airflow: DAGs, scheduling, monitoreo

Big Data con PySpark: transformaciones a gran escala

Streaming de datos: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: despliegue de contenedores, scaling, clusters de producción

Infrastructure as Code con Terraform

Bases de datos avanzadas: GraphDB, Document DBs, Wide Column DBs

Logging, monitoreo y observabilidad de pipelines

Temas clave a dominar

Los conceptos más importantes para entender esta tecnología y aprobar tus entrevistas

1

Linux y Shell: comandos esenciales, scripting bash, permisos, cron jobs

2

Git y GitHub: branching, merge, rebase, pull requests, CI/CD workflows

3

Python avanzado: POO, decoradores, generadores, context managers, typing, async/await

4

CI/CD: linting (Ruff, Pylint), packaging (Poetry), tests, GitHub Actions, pipelines

5

Docker: Dockerfile, imágenes, contenedores, volumes, networks, multi-stage builds

6

Docker Compose: servicios multi-contenedor, dependencias, healthchecks, orquestación local

7

FastAPI: rutas, modelos Pydantic, dependencias, middleware, despliegue

8

SQL avanzado: window functions, CTEs, consultas analíticas, optimización, indexación

9

BigQuery: arquitectura serverless, particionamiento, clustering, costos, UDFs, federated queries

10

PostgreSQL: configuración, replicación, indexación (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

11

Data Modeling: esquema en estrella, tablas de hechos/dimensiones, normalización, SCD, data vault

12

ELT vs ETL vs ETLT: patrones, trade-offs, decisiones de arquitectura

13

Fivetran y Airbyte: conectores, modos de sincronización, CDC, evolución de esquema

14

dbt: models, sources, refs, tests, snapshots, incremental models, Jinja macros

15

Apache Airflow: DAGs, operators, sensors, XCom, connections, pools, dependencias de tareas

16

PySpark: RDD vs DataFrame, transformaciones, acciones, partitioning, broadcast variables

17

Streaming: Pub/Sub (topics, subscriptions), Apache Beam (PCollections, transforms, windowing), Dataflow

18

Kubernetes: pods, deployments, services, ingress, ConfigMaps, Secrets, Helm, scaling

19

Terraform: providers, resources, state, modules, plan/apply, infrastructure as code

20

IAM y seguridad: principios de privilegio mínimo, service accounts, roles de GCP

21

Bases de datos NoSQL: GraphDB (Neo4j), Document DBs (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

22

Arquitectura de datos: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contracts

23

Monitoreo y observabilidad: logging, métricas, alertas, SLA/SLO/SLI, data quality checks