Data Engineering

DATA

Programa completo de Data Engineering que cubre toda la cadena de producción de datos. Desde la configuración de entornos con Docker y GCP hasta la orquestación de pipelines con Airflow y dbt, pasando por la creación de Data Warehouses con BigQuery y PostgreSQL. Aprende a manejar streaming de datos con PySpark, Pub/Sub y Apache Beam, y a desplegar en producción con Kubernetes y Terraform. Domina las mejores prácticas de CI/CD, monitoreo y arquitecturas de datos modernas.

Lo que aprenderás

Entornos de desarrollo: Linux, Git, GitHub, VS Code, Python avanzado

CI/CD y calidad de código: Ruff, Pylint, Poetry, GitHub Actions

Contenedorización con Docker y Docker Compose

APIs con FastAPI: diseño, despliegue, documentación

Data Lake: ingestión, almacenamiento, organización de datos crudos

Data Warehouse con BigQuery: esquemas, particionamiento, optimización

PostgreSQL: configuración, administración, comparación con soluciones administradas

Ingestión de datos con Fivetran y Airbyte

Transformación con dbt: models, tests, documentación, modularidad

Orquestación con Apache Airflow: DAGs, scheduling, monitoreo

Big Data con PySpark: transformaciones a gran escala

Streaming de datos: Google Pub/Sub, Apache Beam, Dataflow

Kubernetes: despliegue de contenedores, scaling, clusters de producción

Infrastructure as Code con Terraform

Bases de datos avanzadas: GraphDB, Document DBs, Wide Column DBs

Logging, monitoreo y observabilidad de pipelines

Temas clave a dominar

Los conceptos más importantes para entender esta tecnología y aprobar tus entrevistas

Linux y Shell: comandos esenciales, scripting bash, permisos, cron jobs

Git y GitHub: branching, merge, rebase, pull requests, CI/CD workflows

Python avanzado: POO, decoradores, generadores, context managers, typing, async/await

CI/CD: linting (Ruff, Pylint), packaging (Poetry), tests, GitHub Actions, pipelines

Docker: Dockerfile, imágenes, contenedores, volumes, networks, multi-stage builds

Docker Compose: servicios multi-contenedor, dependencias, healthchecks, orquestación local

FastAPI: rutas, modelos Pydantic, dependencias, middleware, despliegue

SQL avanzado: window functions, CTEs, consultas analíticas, optimización, indexación

BigQuery: arquitectura serverless, particionamiento, clustering, costos, UDFs, federated queries

PostgreSQL: configuración, replicación, indexación (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

Data Modeling: esquema en estrella, tablas de hechos/dimensiones, normalización, SCD, data vault

ELT vs ETL vs ETLT: patrones, trade-offs, decisiones de arquitectura

Fivetran y Airbyte: conectores, modos de sincronización, CDC, evolución de esquema

dbt: models, sources, refs, tests, snapshots, incremental models, Jinja macros

Apache Airflow: DAGs, operators, sensors, XCom, connections, pools, dependencias de tareas

PySpark: RDD vs DataFrame, transformaciones, acciones, partitioning, broadcast variables

Streaming: Pub/Sub (topics, subscriptions), Apache Beam (PCollections, transforms, windowing), Dataflow

Kubernetes: pods, deployments, services, ingress, ConfigMaps, Secrets, Helm, scaling

Terraform: providers, resources, state, modules, plan/apply, infrastructure as code

IAM y seguridad: principios de privilegio mínimo, service accounts, roles de GCP

Bases de datos NoSQL: GraphDB (Neo4j), Document DBs (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

Arquitectura de datos: Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contracts

Monitoreo y observabilidad: logging, métricas, alertas, SLA/SLO/SLI, data quality checks

Artículos recientes de Data Engineering

Descubre nuestros últimos artículos y guías sobre Data Engineering

Apache Spark 4 nuevas funcionalidades y streaming estructurado

May 11, 2026

Apache Spark 4 en 2026: Nuevas Funcionalidades, Structured Streaming y Preguntas de Entrevista

Guía completa sobre Apache Spark 4: modo ANSI SQL, tipo de dato VARIANT, Real-Time Mode streaming, Spark Connect y preguntas de entrevista para data engineering.

Diagrama de arquitectura de streaming con Apache Kafka mostrando particiones y flujo de datos en tiempo real

April 20, 2026

Apache Kafka para Ingenieria de Datos: Particiones, Streaming y Pipelines en Tiempo Real

Guia completa de Apache Kafka para ingenieria de datos. Arquitectura KRaft, estrategias de particionamiento, consumer groups, CDC con Debezium, exactly-once semantics y Share Groups con ejemplos en Python.

Diagrama comparativo de arquitecturas ETL y ELT mostrando flujos de datos entre sistemas fuente y data warehouse

April 13, 2026

ETL vs ELT en 2026: Guía Completa de Arquitectura de Pipelines de Datos

Análisis profundo de las arquitecturas ETL y ELT para pipelines de datos en 2026, incluyendo comparativas de costos, ejemplos de código con dbt y criterios de decisión para data engineers.

Ver todos los artículos de Data Engineering