
Apache Airflow - Avanzato
Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring
1Qual è il ruolo principale di un Sensor in Apache Airflow?
Qual è il ruolo principale di un Sensor in Apache Airflow?
Risposta
Un Sensor è un operatore speciale che attende che una condizione sia soddisfatta prima di continuare l'esecuzione del DAG. Verifica periodicamente (poke) se la condizione è soddisfatta, come l'arrivo di un file, la disponibilità di una partizione o lo stato di un altro task. I Sensors sono essenziali per orchestrare workflow dipendenti da eventi esterni.
2Qual è la differenza tra le modalità 'poke' e 'reschedule' per un Sensor?
Qual è la differenza tra le modalità 'poke' e 'reschedule' per un Sensor?
Risposta
In modalità poke, il Sensor occupa continuamente uno worker slot e verifica la condizione a intervalli regolari (poke_interval). In modalità reschedule, il Sensor rilascia lo worker slot tra le verifiche e si riprogramma. La modalità reschedule è raccomandata per condizioni a lunga durata poiché libera risorse per altri task.
3Quale Sensor utilizzare per attendere che una partizione Hive sia disponibile?
Quale Sensor utilizzare per attendere che una partizione Hive sia disponibile?
Risposta
HivePartitionSensor verifica l'esistenza di una partizione specifica in una tabella Hive. È comunemente usato nelle data pipeline per garantire che i dati sorgente siano disponibili prima di eseguire le trasformazioni. Accetta parametri come schema, table e partition da verificare.
Come trasferire dati tra due task Airflow?
Qual è la dimensione massima raccomandata per i dati archiviati in XCom?
+17 domande da colloquio
Altri argomenti di colloquio Data Engineering
Linux & Shell - Fondamenti
Git & GitHub - Fondamenti
Python avanzato per Data Engineering
Docker - Fondamenti
Google Cloud Platform - Fondamenti
CI/CD e qualità del codice
Docker Compose
FastAPI - API per dati
SQL avanzato per il Data Engineering
Data Lake - Architettura e ingestione
BigQuery per il Data Engineering
PostgreSQL - Amministrazione
Data Modeling per Data Engineering
Fivetran & Airbyte - Ingestione dati
dbt - Fondamenti
Apache Airflow - Fondamenti
Kubernetes - Fondamenti
dbt - Funzionalità avanzate
Pattern ETL / ELT / ETLT
Airflow + dbt - Orchestrazione delle pipeline
PySpark - Elaborazione su larga scala
Google Pub/Sub - Streaming di dati
Apache Beam & Dataflow
Kubernetes - Produzione e scaling
Terraform - Infrastructure as Code
Database NoSQL
Data Architecture moderna
Monitoraggio e osservabilità
IAM e sicurezza dei dati
Padroneggia Data Engineering per il tuo prossimo colloquio
Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.
Inizia gratis