Data Engineering

Apache Airflow - Avanzato

Sensors, XCom, TaskFlow API, pools, priority, dynamic DAGs, KubernetesPodOperator, monitoring

20 domande da colloquio·
Senior
1

Qual è il ruolo principale di un Sensor in Apache Airflow?

Risposta

Un Sensor è un operatore speciale che attende che una condizione sia soddisfatta prima di continuare l'esecuzione del DAG. Verifica periodicamente (poke) se la condizione è soddisfatta, come l'arrivo di un file, la disponibilità di una partizione o lo stato di un altro task. I Sensors sono essenziali per orchestrare workflow dipendenti da eventi esterni.

2

Qual è la differenza tra le modalità 'poke' e 'reschedule' per un Sensor?

Risposta

In modalità poke, il Sensor occupa continuamente uno worker slot e verifica la condizione a intervalli regolari (poke_interval). In modalità reschedule, il Sensor rilascia lo worker slot tra le verifiche e si riprogramma. La modalità reschedule è raccomandata per condizioni a lunga durata poiché libera risorse per altri task.

3

Quale Sensor utilizzare per attendere che una partizione Hive sia disponibile?

Risposta

HivePartitionSensor verifica l'esistenza di una partizione specifica in una tabella Hive. È comunemente usato nelle data pipeline per garantire che i dati sorgente siano disponibili prima di eseguire le trasformazioni. Accetta parametri come schema, table e partition da verificare.

4

Come trasferire dati tra due task Airflow?

5

Qual è la dimensione massima raccomandata per i dati archiviati in XCom?

+17 domande da colloquio

Padroneggia Data Engineering per il tuo prossimo colloquio

Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.

Inizia gratis