Question 1

Qu'est-ce que Ruff dans l'écosystème Python ?

Accepted Answer

Ruff est un linter et formateur Python extrêmement rapide écrit en Rust. Il remplace avantageusement des outils comme Flake8, isort, et Black en offrant des performances 10 à 100 fois supérieures. Ruff supporte plus de 700 règles de linting et s'intègre facilement dans les pipelines CI/CD et les hooks pre-commit.

Question 2

Quel est le rôle principal du fichier pyproject.toml avec Poetry ?

Accepted Answer

Le fichier pyproject.toml est le fichier central de configuration d'un projet Python avec Poetry. Il définit les métadonnées du projet (nom, version, description), les dépendances de production et de développement, les scripts, et les configurations d'outils comme Ruff ou pytest. Ce fichier standardisé remplace setup.py, requirements.txt et setup.cfg.

Question 3

Quelle commande Poetry permet d'installer toutes les dépendances d'un projet existant ?

Accepted Answer

La commande poetry install lit le fichier pyproject.toml et le fichier poetry.lock pour installer toutes les dépendances du projet dans un environnement virtuel isolé. Si poetry.lock existe, les versions exactes sont utilisées pour garantir la reproductibilité. Sinon, Poetry résout les dépendances et crée le fichier lock.

CI/CD et qualité de code

Qu'est-ce que Ruff dans l'écosystème Python ?

Réponse

Quel est le rôle principal du fichier pyproject.toml avec Poetry ?

Réponse

Quelle commande Poetry permet d'installer toutes les dépendances d'un projet existant ?

Réponse

Qu'est-ce qu'un pre-commit hook dans le contexte Git ?

Quelle est la structure de base d'un workflow GitHub Actions ?

Autres sujets d'entretien Data Engineering

Linux & Shell - Fondamentaux

Git & GitHub - Fondamentaux

Python avancé pour le Data Engineering

Docker - Fondamentaux

Google Cloud Platform - Fondamentaux

Docker Compose

FastAPI - APIs de données

SQL avancé pour le Data Engineering

Data Lake - Architecture et ingestion

BigQuery pour le Data Engineering

PostgreSQL - Administration

Data Modeling pour le Data Engineering

Fivetran & Airbyte - Ingestion de données

dbt - Fondamentaux

Apache Airflow - Fondamentaux

Kubernetes - Fondamentaux

dbt - Fonctionnalités avancées

Patterns ETL / ELT / ETLT

Apache Airflow - Avancé

Airflow + dbt - Orchestration de pipelines

PySpark - Traitement à grande échelle

Google Pub/Sub - Streaming de données

Apache Beam & Dataflow

Kubernetes - Production et scaling

Terraform - Infrastructure as Code

Bases de données NoSQL

Architecture Data moderne

Monitoring et observabilité

IAM et sécurité des données

Maîtrise Data Engineering pour ton prochain entretien