
Data Cleaning - Pulizia dei dati
Valori mancanti, duplicati, outlier, regole di business, trasformazione, qualità dei dati
1Cos'è un valore mancante (missing value) in un dataset?
Cos'è un valore mancante (missing value) in un dataset?
Risposta
Un valore mancante rappresenta un dato assente o non compilato in un campo. Può apparire come cella vuota, NULL in un database o NaN in un DataFrame. Identificare i valori mancanti è il primo passo della pulizia dei dati perché possono distorcere le analisi statistiche e le aggregazioni.
2Qual è la differenza tra un valore NULL e una stringa vuota in un database?
Qual è la differenza tra un valore NULL e una stringa vuota in un database?
Risposta
NULL significa che il valore è sconosciuto o non esiste, mentre una stringa vuota è un valore noto che è vuoto. Questa distinzione è fondamentale in SQL perché NULL non può essere confrontato con l'operatore = (deve essere usato IS NULL), mentre una stringa vuota può essere confrontata normalmente con = ''.
3Cos'è un duplicato in un dataset?
Cos'è un duplicato in un dataset?
Risposta
Un duplicato è un record che appare più di una volta in un dataset, sia in modo esatto (tutte le colonne identiche) che parziale (alcune colonne chiave identiche). I duplicati distorcono conteggi, somme e medie. La loro rilevazione si basa tipicamente sull'identificazione delle colonne chiave che dovrebbero essere uniche.
Quale tecnica permette di rilevare i duplicati esatti in SQL?
Cos'è un outlier (valore anomalo) in un dataset?
+17 domande da colloquio
Altri argomenti di colloquio Data Analytics
Google Sheets - Fondamenti
Google Sheets - Formule avanzate
SQL - Fondamenti
SQL - Aggregazioni e raggruppamenti
SQL - Join
BigQuery - Fondamenti
KPI e metriche di business
Statistica descrittiva
Zapier e automazione No-Code
Principi di data visualization
Python & Pandas - Fondamenti
Google Sheets - Dashboard automatizzate
SQL - Subquery e CTE
SQL - Window Functions
BigQuery - Funzionalità avanzate
Data Modeling
Analisi di funnel e conversione
Analisi delle coorti e retention
Google Tag Manager e tracking
API e webhook
dbt - Fondamenti
AB Testing e statistica applicata
Looker Studio (Google Data Studio)
Power BI - Fondamenti
SQL - Query analitiche avanzate
dbt - Funzionalità avanzate
Power BI - DAX e dashboard avanzate
Python Analytics - Analisi avanzata e ML
Padroneggia Data Analytics per il tuo prossimo colloquio
Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.
Inizia gratis