Data Engineering

DATA

Parcours complet en Data Engineering couvrant toute la chaîne de production des données. De la configuration d'environnements avec Docker et GCP à l'orchestration de pipelines avec Airflow et dbt, en passant par la création de Data Warehouses avec BigQuery et PostgreSQL. Apprenez à gérer le streaming de données avec PySpark, Pub/Sub et Apache Beam, et à déployer en production avec Kubernetes et Terraform. Maîtrisez les bonnes pratiques CI/CD, le monitoring et les architectures de données modernes.

Ce que tu vas apprendre

Environnements de développement : Linux, Git, GitHub, VS Code, Python avancé

CI/CD et qualité de code : Ruff, Pylint, Poetry, GitHub Actions

Conteneurisation avec Docker et Docker Compose

APIs avec FastAPI : conception, déploiement, documentation

Data Lake : ingestion, stockage, organisation des données brutes

Data Warehouse avec BigQuery : schémas, partitionnement, optimisation

PostgreSQL : configuration, administration, comparaison avec solutions managées

Ingestion de données avec Fivetran et Airbyte

Transformation avec dbt : models, tests, documentation, modularité

Orchestration avec Apache Airflow : DAGs, scheduling, monitoring

Big Data avec PySpark : transformations à grande échelle

Streaming de données : Google Pub/Sub, Apache Beam, Dataflow

Kubernetes : déploiement de conteneurs, scaling, clusters de production

Infrastructure as Code avec Terraform

Bases de données avancées : GraphDB, Document DBs, Wide Column DBs

Logging, monitoring et observabilité des pipelines

Sujets clés à maîtriser

Les concepts les plus importants pour comprendre cette techno et réussir tes entretiens

Linux & Shell : commandes essentielles, scripting bash, permissions, cron jobs

Git & GitHub : branching, merge, rebase, pull requests, CI/CD workflows

Python avancé : POO, décorateurs, générateurs, context managers, typing, async/await

CI/CD : linting (Ruff, Pylint), packaging (Poetry), tests, GitHub Actions, pipelines

Docker : Dockerfile, images, conteneurs, volumes, networks, multi-stage builds

Docker Compose : services multi-conteneurs, dépendances, healthchecks, orchestration locale

FastAPI : routes, modèles Pydantic, dépendances, middleware, déploiement

SQL avancé : window functions, CTEs, requêtes analytiques, optimisation, indexation

BigQuery : architecture serverless, partitionnement, clustering, coûts, UDFs, federated queries

PostgreSQL : configuration, réplication, indexation (B-tree, GIN, GiST), VACUUM, EXPLAIN ANALYZE

Data Modeling : schéma en étoile, tables de faits/dimensions, normalisation, SCD, data vault

ELT vs ETL vs ETLT : patterns, trade-offs, choix d'architecture

Fivetran & Airbyte : connecteurs, sync modes, CDC, schéma evolution

dbt : models, sources, refs, tests, snapshots, incremental models, Jinja macros

Apache Airflow : DAGs, operators, sensors, XCom, connections, pools, task dependencies

PySpark : RDD vs DataFrame, transformations, actions, partitioning, broadcast variables

Streaming : Pub/Sub (topics, subscriptions), Apache Beam (PCollections, transforms, windowing), Dataflow

Kubernetes : pods, deployments, services, ingress, ConfigMaps, Secrets, Helm, scaling

Terraform : providers, resources, state, modules, plan/apply, infrastructure as code

IAM & sécurité : principes du moindre privilège, service accounts, rôles GCP

Bases de données NoSQL : GraphDB (Neo4j), Document DBs (MongoDB, Firestore), Wide Column (Cassandra, Bigtable)

Architecture Data : Data Lake vs Data Warehouse vs Data Lakehouse, Data Mesh, Data Contracts

Monitoring & observabilité : logging, métriques, alerting, SLA/SLO/SLI, data quality checks

Articles récents sur Data Engineering

Découvre nos derniers articles et guides sur Data Engineering

Apache Spark 4 nouvelles fonctionnalités et streaming structuré

11 mai 2026

Apache Spark 4 en 2026 : Nouvelles Fonctionnalités, Structured Streaming et Questions d'Entretien

Guide complet sur Apache Spark 4 : mode ANSI SQL, type VARIANT, Real-Time Mode streaming, Spark Connect, et questions d'entretien data engineering.

Schema d'architecture Apache Kafka avec partitions, consumer groups et flux de donnees en streaming

20 avril 2026

Apache Kafka pour les Data Engineers : Architecture KRaft, Partitions et Pipelines Exactly-Once

Guide approfondi sur Apache Kafka pour les data engineers. Architecture KRaft sans ZooKeeper, strategies de partitionnement, consumer groups, CDC avec Debezium, transactions exactly-once et Share Groups, avec exemples de code Python et questions d'entretien.

Schéma comparatif des architectures ETL et ELT avec flux de données et transformations

13 avril 2026

ETL vs ELT en 2026 : Guide Complet de l'Architecture des Pipelines de Données

Guide technique comparant les architectures ETL et ELT pour les pipelines de données en 2026. Inclut des exemples de code Python et dbt, des tableaux comparatifs de coûts, et des recommandations pratiques pour choisir la bonne approche.

Voir tous les articles Data Engineering