
Data Cleaning - Data opschonen
Ontbrekende waarden, duplicaten, outliers, businessregels, transformatie, datakwaliteit
1Wat is een ontbrekende waarde (missing value) in een dataset?
Wat is een ontbrekende waarde (missing value) in een dataset?
Antwoord
Een ontbrekende waarde vertegenwoordigt afwezige of niet-ingevulde data in een veld. Het kan verschijnen als een lege cel, NULL in een database of NaN in een DataFrame. Het identificeren van ontbrekende waarden is de eerste stap van data-opschoning omdat ze statistische analyses en aggregaties kunnen vervormen.
2Wat is het verschil tussen een NULL-waarde en een lege string in een database?
Wat is het verschil tussen een NULL-waarde en een lege string in een database?
Antwoord
NULL betekent dat de waarde onbekend is of niet bestaat, terwijl een lege string een bekende waarde is die toevallig leeg is. Dit onderscheid is fundamenteel in SQL omdat NULL niet kan worden vergeleken met de = operator (IS NULL moet worden gebruikt), terwijl een lege string normaal kan worden vergeleken met = ''.
3Wat is een duplicaat in een dataset?
Wat is een duplicaat in een dataset?
Antwoord
Een duplicaat is een record dat meer dan eens voorkomt in een dataset, hetzij exact (alle kolommen identiek) of gedeeltelijk (bepaalde sleutelkolommen identiek). Duplicaten vervormen tellingen, sommen en gemiddelden. Hun detectie berust meestal op het identificeren van sleutelkolommen die uniek zouden moeten zijn.
Welke techniek maakt het mogelijk om exacte duplicaten in SQL te detecteren?
Wat is een outlier (uitschieter) in een dataset?
+17 gespreksvragen
Andere Data Analytics-sollicitatieonderwerpen
Google Sheets - Grondbeginselen
Google Sheets - Geavanceerde formules
SQL - Grondbeginselen
SQL - Aggregaties en groeperingen
SQL - Joins
BigQuery - Grondbeginselen
KPI's en business-metrieken
Beschrijvende statistiek
Zapier en No-Code automatisering
Principes van datavisualisatie
Python & Pandas - Grondbeginselen
Google Sheets - Geautomatiseerde dashboards
SQL - Subquery's en CTE's
SQL - Window Functions
BigQuery - Geavanceerde functies
Data Modeling
Funnel- en conversieanalyse
Cohort- en retentieanalyse
Google Tag Manager en tracking
API's en webhooks
dbt - Grondbeginselen
AB Testing en toegepaste statistiek
Looker Studio (Google Data Studio)
Power BI - Basisprincipes
SQL - Geavanceerde analytische queries
dbt - Geavanceerde functies
Power BI - DAX en geavanceerde dashboards
Python Analytics - Geavanceerde analyse en ML
Beheers Data Analytics voor je volgende gesprek
Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.
Begin gratis