Data Analytics

Data Cleaning - Data opschonen

Ontbrekende waarden, duplicaten, outliers, businessregels, transformatie, datakwaliteit

20 gespreksvragen·
Junior
1

Wat is een ontbrekende waarde (missing value) in een dataset?

Antwoord

Een ontbrekende waarde vertegenwoordigt afwezige of niet-ingevulde data in een veld. Het kan verschijnen als een lege cel, NULL in een database of NaN in een DataFrame. Het identificeren van ontbrekende waarden is de eerste stap van data-opschoning omdat ze statistische analyses en aggregaties kunnen vervormen.

2

Wat is het verschil tussen een NULL-waarde en een lege string in een database?

Antwoord

NULL betekent dat de waarde onbekend is of niet bestaat, terwijl een lege string een bekende waarde is die toevallig leeg is. Dit onderscheid is fundamenteel in SQL omdat NULL niet kan worden vergeleken met de = operator (IS NULL moet worden gebruikt), terwijl een lege string normaal kan worden vergeleken met = ''.

3

Wat is een duplicaat in een dataset?

Antwoord

Een duplicaat is een record dat meer dan eens voorkomt in een dataset, hetzij exact (alle kolommen identiek) of gedeeltelijk (bepaalde sleutelkolommen identiek). Duplicaten vervormen tellingen, sommen en gemiddelden. Hun detectie berust meestal op het identificeren van sleutelkolommen die uniek zouden moeten zijn.

4

Welke techniek maakt het mogelijk om exacte duplicaten in SQL te detecteren?

5

Wat is een outlier (uitschieter) in een dataset?

+17 gespreksvragen

Beheers Data Analytics voor je volgende gesprek

Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.

Begin gratis