
Airflow + dbt - Pipeline-orkestratie
astronomer-cosmos, DbtDagParser, dbt run/test in Airflow, afhankelijkheidsbeheer, end-to-end monitoring
1Wat is het belangrijkste voordeel van het gebruik van astronomer-cosmos om dbt te integreren in Airflow?
Wat is het belangrijkste voordeel van het gebruik van astronomer-cosmos om dbt te integreren in Airflow?
Antwoord
Astronomer-cosmos converteert dbt-models automatisch naar individuele Airflow-taken, wat granulaire zichtbaarheid biedt voor elk model in de Airflow-UI. Hierdoor kunnen Airflow-functies (retry, alerting, monitoring) op modelniveau worden benut in plaats van op het hele dbt-project.
2Hoe verwerkt cosmos afhankelijkheden tussen dbt-models in een Airflow-DAG?
Hoe verwerkt cosmos afhankelijkheden tussen dbt-models in een Airflow-DAG?
Antwoord
Cosmos analyseert de manifest.json van dbt om de afhankelijkheidsgrafiek tussen models te extraheren. Vervolgens worden automatisch afhankelijkheidsrelaties (upstream/downstream) gemaakt tussen de bijbehorende Airflow-taken, waardoor de uitvoeringsvolgorde die door refs in het dbt-project wordt gedefinieerd, wordt gerespecteerd.
3Wat is het verschil tussen de uitvoeringsmodi 'local' en 'docker' in cosmos?
Wat is het verschil tussen de uitvoeringsmodi 'local' en 'docker' in cosmos?
Antwoord
In de lokale modus voert cosmos dbt direct uit in de Python-omgeving van de Airflow-worker, waarvoor dbt geïnstalleerd moet zijn. In de docker-modus draait elke dbt-taak in een geïsoleerde Docker-container met een eigen dbt-image, wat zorgt voor betere isolatie en reproduceerbaarheid van afhankelijkheden.
Hoe configureer je cosmos om alleen een subset van dbt-models uit te voeren op basis van tags?
Wat is de rol van DbtTaskGroup in de Airflow-dbt-integratie met cosmos?
+17 gespreksvragen
Andere Data Engineering-sollicitatieonderwerpen
Linux & Shell - Grondbeginselen
Git & GitHub - Grondbeginselen
Geavanceerde Python voor Data Engineering
Docker - Basisbeginselen
Google Cloud Platform - Fundamenten
CI/CD en codekwaliteit
Docker Compose
FastAPI - Data-API's
Geavanceerde SQL voor Data Engineering
Data Lake - Architectuur en ingestie
BigQuery voor Data Engineering
PostgreSQL - Administratie
Data Modeling voor Data Engineering
Fivetran & Airbyte - Data-ingestie
dbt - Grondbeginselen
Apache Airflow - Grondbeginselen
Kubernetes - Fundamenten
dbt - Geavanceerde functies
ETL- / ELT- / ETLT-patronen
Apache Airflow - Gevorderd
PySpark - Grootschalige verwerking
Google Pub/Sub - Datastreaming
Apache Beam & Dataflow
Kubernetes - Productie en scaling
Terraform - Infrastructure as Code
NoSQL-databases
Moderne Data Architecture
Monitoring en observability
IAM en gegevensbeveiliging
Beheers Data Engineering voor je volgende gesprek
Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.
Begin gratis