Data Analytics

Data Cleaning - Pulizia dei dati

Valori mancanti, duplicati, outlier, regole di business, trasformazione, qualità dei dati

20 domande da colloquio·
Junior
1

Cos'è un valore mancante (missing value) in un dataset?

Risposta

Un valore mancante rappresenta un dato assente o non compilato in un campo. Può apparire come cella vuota, NULL in un database o NaN in un DataFrame. Identificare i valori mancanti è il primo passo della pulizia dei dati perché possono distorcere le analisi statistiche e le aggregazioni.

2

Qual è la differenza tra un valore NULL e una stringa vuota in un database?

Risposta

NULL significa che il valore è sconosciuto o non esiste, mentre una stringa vuota è un valore noto che è vuoto. Questa distinzione è fondamentale in SQL perché NULL non può essere confrontato con l'operatore = (deve essere usato IS NULL), mentre una stringa vuota può essere confrontata normalmente con = ''.

3

Cos'è un duplicato in un dataset?

Risposta

Un duplicato è un record che appare più di una volta in un dataset, sia in modo esatto (tutte le colonne identiche) che parziale (alcune colonne chiave identiche). I duplicati distorcono conteggi, somme e medie. La loro rilevazione si basa tipicamente sull'identificazione delle colonne chiave che dovrebbero essere uniche.

4

Quale tecnica permette di rilevare i duplicati esatti in SQL?

5

Cos'è un outlier (valore anomalo) in un dataset?

+17 domande da colloquio

Padroneggia Data Analytics per il tuo prossimo colloquio

Accedi a tutte le domande, flashcards, test tecnici, esercizi di code review e simulatori di colloquio.

Inizia gratis