Question 1

Qual è il ruolo principale di un Sensor in Apache Airflow?

Accepted Answer

Un Sensor è un operatore speciale che attende che una condizione sia soddisfatta prima di continuare l'esecuzione del DAG. Verifica periodicamente (poke) se la condizione è soddisfatta, come l'arrivo di un file, la disponibilità di una partizione o lo stato di un altro task. I Sensors sono essenziali per orchestrare workflow dipendenti da eventi esterni.

Question 2

Qual è la differenza tra le modalità 'poke' e 'reschedule' per un Sensor?

Accepted Answer

In modalità poke, il Sensor occupa continuamente uno worker slot e verifica la condizione a intervalli regolari (poke_interval). In modalità reschedule, il Sensor rilascia lo worker slot tra le verifiche e si riprogramma. La modalità reschedule è raccomandata per condizioni a lunga durata poiché libera risorse per altri task.

Question 3

Quale Sensor utilizzare per attendere che una partizione Hive sia disponibile?

Accepted Answer

HivePartitionSensor verifica l'esistenza di una partizione specifica in una tabella Hive. È comunemente usato nelle data pipeline per garantire che i dati sorgente siano disponibili prima di eseguire le trasformazioni. Accetta parametri come schema, table e partition da verificare.

Apache Airflow - Avanzato

Qual è il ruolo principale di un Sensor in Apache Airflow?

Risposta

Qual è la differenza tra le modalità 'poke' e 'reschedule' per un Sensor?

Risposta

Quale Sensor utilizzare per attendere che una partizione Hive sia disponibile?

Risposta

Come trasferire dati tra due task Airflow?

Qual è la dimensione massima raccomandata per i dati archiviati in XCom?

Altri argomenti di colloquio Data Engineering

Linux & Shell - Fondamenti

Git & GitHub - Fondamenti

Python avanzato per Data Engineering

Docker - Fondamenti

Google Cloud Platform - Fondamenti

CI/CD e qualità del codice

Docker Compose

FastAPI - API per dati

SQL avanzato per il Data Engineering

Data Lake - Architettura e ingestione

BigQuery per il Data Engineering

PostgreSQL - Amministrazione

Data Modeling per Data Engineering

Fivetran & Airbyte - Ingestione dati

dbt - Fondamenti

Apache Airflow - Fondamenti

Kubernetes - Fondamenti

dbt - Funzionalità avanzate

Pattern ETL / ELT / ETLT

Airflow + dbt - Orchestrazione delle pipeline

PySpark - Elaborazione su larga scala

Google Pub/Sub - Streaming di dati

Apache Beam & Dataflow

Kubernetes - Produzione e scaling

Terraform - Infrastructure as Code

Database NoSQL

Data Architecture moderna

Monitoraggio e osservabilità

IAM e sicurezza dei dati

Padroneggia Data Engineering per il tuo prossimo colloquio