Data Analytics

Data Cleaning - Nettoyage des données

Gestion des valeurs manquantes, doublons, outliers, règles business, transformation, qualité des données

20 questions d'entretien·
Junior
1

Qu'est-ce qu'une valeur manquante (missing value) dans un jeu de données ?

Réponse

Une valeur manquante représente une donnée absente ou non renseignée dans un champ. Elle peut apparaître sous forme de cellule vide, NULL en base de données, ou NaN dans un DataFrame. Identifier les valeurs manquantes est la première étape du nettoyage de données car elles peuvent fausser les analyses statistiques et les agrégations.

2

Quelle est la différence entre une valeur NULL et une chaîne vide dans une base de données ?

Réponse

NULL signifie que la valeur est inconnue ou n'existe pas, tandis qu'une chaîne vide est une valeur connue qui se trouve être vide. Cette distinction est fondamentale en SQL car NULL ne peut pas être comparé avec l'opérateur = (il faut utiliser IS NULL), alors qu'une chaîne vide peut être comparée normalement avec = ''.

3

Qu'est-ce qu'un doublon dans un jeu de données ?

Réponse

Un doublon est un enregistrement qui apparaît plus d'une fois dans un jeu de données, soit de manière exacte (toutes les colonnes identiques), soit partielle (certaines colonnes clés identiques). Les doublons faussent les comptages, les sommes et les moyennes. Leur détection repose généralement sur l'identification de colonnes clés qui devraient être uniques.

4

Quelle technique permet de détecter les doublons exacts en SQL ?

5

Qu'est-ce qu'un outlier (valeur aberrante) dans un jeu de données ?

+17 questions d'entretien

Maîtrise Data Analytics pour ton prochain entretien

Accède à toutes les questions, flashcards, tests techniques, exercices de code review et simulateurs d'entretien.

Commencer gratuitement