De 25 Meest Gestelde Data Analytics Sollicitatievragen in 2026
De meest voorkomende data analytics sollicitatievragen in 2026: SQL, Python, Power BI, statistiek en gedragsvragen met uitgebreide antwoorden en codevoorbeelden.

Data analytics sollicitatiegesprekken in 2026 gaan veel verder dan SQL-syntax of het bouwen van grafieken. Selectieteams beoordelen het vermogen om betekenis te halen uit rommelige datasets, bevindingen te communiceren aan niet-technische stakeholders en elke metric te koppelen aan een bedrijfsresultaat. Deze gids behandelt de 25 vragen die het vaakst voorkomen in junior, mid-level en senior data analyst functies.
Elke vraag bevat een beknopt modelantwoord en, waar relevant, uitvoerbare SQL- of Python-code. Het advies is om de queries zelf te schrijven voordat de oplossing wordt gelezen. Interviewers hechten meer waarde aan het redeneerproces dan aan een uit het hoofd geleerd antwoord.
SQL-vragen voor Data Analyst Sollicitaties
SQL blijft de meest geteste vaardigheid in data analytics sollicitaties. Elk bedrijf met een relationele database verwacht dat analisten zelfstandig queries schrijven.
1. Wat is het verschil tussen WHERE en HAVING?
WHERE filtert rijen voor de aggregatie. HAVING filtert groepen na de aggregatie. Het verwarren van deze twee is een van de meest voorkomende fouten in technische screenings.
-- monthly_revenue.sql
SELECT
DATE_TRUNC('month', order_date) AS month,
SUM(amount) AS revenue
FROM orders
WHERE status = 'completed' -- row-level filter
GROUP BY month
HAVING SUM(amount) > 10000; -- group-level filterWHERE verkleint de dataset voordat de database-engine de GROUP BY uitvoert. HAVING werkt op het geaggregeerde resultaat. Het gebruik van WHERE waar mogelijk verbetert de queryprestaties doordat de werkset eerder in het uitvoeringsplan wordt verkleind.
2. Window functions uitgelegd met een praktisch voorbeeld
Window functions berekenen een waarde over een set rijen gerelateerd aan de huidige rij, zonder de resultaatset samen te vouwen. Ze zijn essentieel voor ranking, lopende totalen en periode-over-periode vergelijkingen.
-- user_ranking.sql
SELECT
user_id,
purchase_date,
amount,
ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY purchase_date) AS purchase_rank,
SUM(amount) OVER (PARTITION BY user_id ORDER BY purchase_date) AS running_total,
LAG(amount) OVER (PARTITION BY user_id ORDER BY purchase_date) AS prev_amount
FROM purchases;ROW_NUMBER wijst een sequentieel rangnummer toe per gebruiker. SUM(...) OVER(...) berekent een lopend totaal zonder self-join. LAG haalt de waarde van de vorige rij op voor directe vergelijking. Deze combinatie wordt regelmatig gevraagd voor het berekenen van maand-op-maand groei.
3. Hoe duplicaatrecords te identificeren en verwijderen
Duplicaatdetectie is een dagelijkse taak voor analisten die werken met eventlogs, CRM-exports of externe datafeeds.
-- deduplicate_events.sql
WITH ranked AS (
SELECT *,
ROW_NUMBER() OVER (
PARTITION BY user_id, event_type, DATE_TRUNC('minute', created_at)
ORDER BY created_at
) AS rn
FROM events
)
SELECT * FROM ranked WHERE rn = 1;De CTE wijst een rijnummer toe binnen elke duplicaatgroep. Door alleen rn = 1 te behouden wordt de eerste voorkomst geretourneerd. Deze aanpak behoudt de originele data terwijl ruis wordt gefilterd.
4. Query voor het berekenen van retentie per wekelijks cohort
Cohortretentie is een van de meest gevraagde analyses in product- en groeiteams. Het SQL-patroon volgt een consistente structuur in alle databases.
-- weekly_cohort_retention.sql
WITH cohorts AS (
SELECT
user_id,
DATE_TRUNC('week', MIN(event_date)) AS cohort_week
FROM user_events
GROUP BY user_id
),
activity AS (
SELECT
c.cohort_week,
DATE_TRUNC('week', e.event_date) AS active_week,
COUNT(DISTINCT e.user_id) AS active_users
FROM user_events e
JOIN cohorts c ON c.user_id = e.user_id
GROUP BY c.cohort_week, DATE_TRUNC('week', e.event_date)
)
SELECT
cohort_week,
EXTRACT(WEEK FROM active_week - cohort_week) AS weeks_since_signup,
active_users
FROM activity
ORDER BY cohort_week, weeks_since_signup;De eerste CTE identificeert de aanmeldweek van elke gebruiker. De tweede telt unieke actieve gebruikers per cohort per week. De uiteindelijke query transformeert het resultaat in een retentiematrix. Een steil verval in week 1 signaleert een onboarding-probleem, terwijl een vlakke curve vanaf week 4 wijst op een stabiele kerngebruikersgroep.
5. Wat is een CTE en wanneer vervangt het een subquery?
Een Common Table Expression (CTE) is een benoemde tijdelijke resultaatset gedefinieerd met WITH. CTE's verbeteren de leesbaarheid en maken recursieve queries mogelijk. Subqueries produceren doorgaans diep geneste SQL die moeilijk te debuggen is. Een CTE heeft de voorkeur wanneer dezelfde afgeleide tabel meerdere keren wordt gerefereerd, of wanneer de logica drie of meer transformatiestappen bevat.
Python Data-analyse Sollicitatievragen
Python-vragen richten zich op Pandas, data cleaning workflows en het vermogen om code in zakelijke termen uit te leggen. Interviewers zoeken pragmatische oplossingen, geen academische abstracties.
6. Hoe om te gaan met ontbrekende waarden in een Pandas DataFrame
Ontbrekende data corrumpeert aggregaties en modelinput. De aanpak hangt af van het kolomtype en de zakelijke context.
# handle_missing.py
import pandas as pd
import numpy as np
df = pd.read_csv('sales.csv')
# Inspect the extent of missing data
print(df.isnull().sum())
print(df.isnull().mean().round(3)) # percentage per column
# Strategy 1: drop rows where critical columns are null
df_clean = df.dropna(subset=['customer_id', 'amount'])
# Strategy 2: fill numeric columns with median (robust to outliers)
df['amount'] = df['amount'].fillna(df['amount'].median())
# Strategy 3: fill categorical columns with the mode
df['region'] = df['region'].fillna(df['region'].mode()[0])Rijen verwijderen werkt wanneer het ontbrekingspercentage onder de 5% ligt en de kolom kritiek is. Mediane imputatie is veiliger dan het gemiddelde bij scheve verdelingen. Modus-imputatie past bij categorische kolommen met een dominante waarde. Het documenteren van de imputatiestrategie is cruciaal voor audittrails.
7. Merge, join en concatenate: wanneer welke gebruiken
Pandas biedt meerdere manieren om DataFrames te combineren. De keuze hangt af van of de bewerking rij- of kolomgewijs is, en of een sleutelgebaseerde match nodig is.
# combine_dataframes.py
import pandas as pd
orders = pd.read_csv('orders.csv')
customers = pd.read_csv('customers.csv')
# Key-based merge (equivalent to SQL JOIN)
result = orders.merge(customers, on='customer_id', how='left')
# Stack rows from multiple sources
all_events = pd.concat([events_q1, events_q2], ignore_index=True)
# Add columns side-by-side (same row count required)
combined = pd.concat([features, labels], axis=1)merge is de juiste keuze voor sleutelgebaseerde joins. concat met standaard axis=0 stapelt rijen. concat met axis=1 voegt kolommen naast elkaar toe. Het gebruik van how='left' behoudt alle rijen van het linker DataFrame, wat overeenkomt met een SQL LEFT JOIN.
8. Groeperen, aggregeren en transformeren van verkoopdata
GroupBy-bewerkingen zijn het Pandas-equivalent van SQL GROUP BY. Het patroon verschijnt in vrijwel elke technische thuisopdracht.
# sales_analysis.py
import pandas as pd
df = pd.read_csv('transactions.csv', parse_dates=['date'])
# Monthly revenue by product category
monthly = (
df.groupby([pd.Grouper(key='date', freq='M'), 'category'])
.agg(revenue=('amount', 'sum'), orders=('order_id', 'nunique'))
.reset_index()
)
# Add a column with each category's share of total monthly revenue
monthly['share'] = (
monthly.groupby('date')['revenue']
.transform(lambda x: x / x.sum())
.round(4)
)
print(monthly.head(10))agg met benoemde aggregatie houdt de output leesbaar. transform propageert een groepsniveau-berekening terug naar elke rij, wat een afzonderlijke merge-stap vermijdt. Deze combinatie dekt het merendeel van de ad-hoc rapportagetaken.
9. Outliers detecteren en behandelen in een dataset
Outlier-detectie bepaalt of extreme waarden data-invoerfouten, fraudesignalen of echte uitzonderingen zijn.
# detect_outliers.py
import pandas as pd
import numpy as np
df = pd.read_csv('transactions.csv')
# IQR method
Q1 = df['amount'].quantile(0.25)
Q3 = df['amount'].quantile(0.75)
IQR = Q3 - Q1
lower = Q1 - 1.5 * IQR
upper = Q3 + 1.5 * IQR
outliers = df[(df['amount'] < lower) | (df['amount'] > upper)]
print(f'Outliers found: {len(outliers)} ({len(outliers)/len(df)*100:.1f}%)')
# Cap instead of remove (winsorization)
df['amount_capped'] = df['amount'].clip(lower=lower, upper=upper)De IQR-methode signaleert waarden buiten 1,5 keer het interkwartielsbereik. Capping (winsorisatie) behoudt het aantal rijen terwijl de invloed van extreme waarden wordt beperkt. Verwijdering is alleen geschikt wanneer outliers duidelijke fouten vertegenwoordigen.
Klaar om je Data Analytics gesprekken te halen?
Oefen met onze interactieve simulatoren, flashcards en technische tests.
Statistiek en Kansrekening Vragen
Statistische geletterdheid onderscheidt analisten die cijfers rapporteren van degenen die ze correct interpreteren. Deze vragen testen fundamenteel begrip.
10. De p-waarde uitgelegd in eenvoudige taal
Een p-waarde is de kans op het observeren van een resultaat dat minstens zo extreem is als het gemeten resultaat, ervan uitgaande dat de nulhypothese waar is. Een p-waarde van 0,03 betekent niet dat er 3% kans is dat de nulhypothese waar is. Het betekent dat als de nulhypothese waar zou zijn, resultaten die zo extreem zijn in 3% van de gevallen puur door toeval zouden voorkomen. De drempelwaarde (alpha) wordt doorgaans op 0,05 gezet, maar de keuze hangt af van de kosten van een vals positief in de specifieke zakelijke context.
11. Wanneer de mediaan te gebruiken in plaats van het gemiddelde
Het gemiddelde is gevoelig voor extreme waarden. Inkomensdata, transactiebedragen en sessieduren zijn klassieke voorbeelden waarbij de mediaan een representatievere centrale tendens biedt. Een dataset met enkele grote enterprise-deals kan het gemiddelde ver boven de typische klantervaring tillen. Het rapporteren van de mediaan naast het gemiddelde, inclusief de standaardafwijking, geeft stakeholders een compleet beeld.
12. Wat is het verschil tussen correlatie en causaliteit?
Correlatie meet de sterkte en richting van een lineair verband tussen twee variabelen. Causaliteit betekent dat de ene variabele de andere direct beinvloedt. IJsverkoop en verdrinkingsincidenten correleren omdat beide toenemen in de zomer, niet omdat de een de ander veroorzaakt. Het vaststellen van causaliteit vereist een gecontroleerd experiment (A/B-test) of een rigoureus causaal inferentie-framework zoals difference-in-differences of instrumentele variabelen.
13. Type I en Type II fouten met een zakelijk voorbeeld
Een Type I fout (vals positief) treedt op wanneer een test de nulhypothese onterecht verwerpt. Voorbeeld: concluderen dat een nieuwe checkout-flow de conversie verhoogt terwijl er in werkelijkheid geen effect is, wat leidt tot een onnodige productwijziging. Een Type II fout (vals negatief) treedt op wanneer een test een echt effect niet detecteert. Voorbeeld: de oude checkout behouden omdat de test onvoldoende steekproefgrootte had om een echte lift van 2% te detecteren. Het vergroten van de steekproef vermindert Type II fouten. Het verlagen van de alpha-drempel vermindert Type I fouten maar vergroot Type II fouten.
Power BI en Datavisualisatie Vragen
Visualisatievragen beoordelen of een kandidaat de juiste grafiek kan kiezen, onderhoudbare dashboards kan bouwen en dataverhalen kan communiceren aan een niet-technisch publiek.
14. Wat is DAX en hoe verschilt het van SQL?
DAX (Data Analysis Expressions) is de formuletaal die wordt gebruikt in Power BI, Analysis Services en Excel Power Pivot. In tegenstelling tot SQL, dat werkt op sets van rijen, werkt DAX binnen een filtercontext die dynamisch verandert op basis van slicers, filters en rijcontext. De CALCULATE-functie in DAX wijzigt de filtercontext voordat een expressie wordt geevalueerd, een concept zonder direct SQL-equivalent.
15. Het verschil tussen import mode en DirectQuery
Import mode laadt data in de in-memory engine van Power BI (VertiPaq), wat snelle queryprestaties levert maar geplande verversingen vereist. DirectQuery stuurt queries in real time naar de brondatabase, wat datafrisheid garandeert maar afhankelijk is van de prestaties van het bronsysteem. In 2026 introduceert Microsoft Fabric de Direct Lake modus, die Parquet-bestanden leest van OneLake zonder te importeren of een SQL-endpoint te bevragen, wat de snelheid van import mode combineert met bijna real-time frisheid.
16. Wanneer een staafdiagram te gebruiken versus een lijndiagram
Staafdiagrammen vergelijken discrete categorieen (omzet per regio, aantal per product). Lijndiagrammen tonen trends over continue intervallen (dagelijks actieve gebruikers, maandelijks verlooppercentage). Een lijndiagram gebruiken voor categorische data impliceert een trend tussen ongerelateerde categorieen, wat het publiek misleidt. Een veelgestelde follow-up gaat over cirkeldiagrammen: deze moeten beperkt worden tot het tonen van delen van een geheel met maximaal vijf segmenten, omdat het menselijk oog moeite heeft hoeken nauwkeurig te vergelijken.
17. Hoe een traag Power BI-rapport te optimaliseren
Trage rapporten komen doorgaans voort uit overmatige kolommen in het datamodel, complexe DAX-measures die rij voor rij worden geevalueerd, of visuals die miljoenen rijen bevragen. De optimalisatiechecklist omvat: ongebruikte kolommen verwijderen om de modelgrootte te verkleinen, iteratorfuncties (SUMX, FILTER) vervangen door hun niet-iterator equivalenten waar mogelijk, het aantal visuals per pagina terugbrengen tot minder dan 15, en aggregatietabellen gebruiken voor hoge-cardinaliteitsdimensies. De Performance Analyzer in Power BI Desktop wijst exact aan welke visual of DAX-query het knelpunt vormt.
Gedrags- en Case Study Vragen
Technische vaardigheden brengen kandidaten in het sollicitatiegesprek. Gedragsvragen bepalen of ze het aanbod krijgen. Elk antwoord moet het STAR-framework volgen: Situatie, Taak, Actie, Resultaat.
18. Beschrijf een moment waarop data-analyse een zakelijke beslissing veranderde
Sterke antwoorden bevatten een specifieke metric die bewoog, de gebruikte analysemethode en de impact in euro's of procenten. Zwakke antwoorden beschrijven een dashboard zonder het te verbinden aan een uitkomst. Voorbeeldstructuur: "Churn-analyse op een SaaS-product onthulde dat gebruikers die de onboarding niet binnen 48 uur voltooiden een 60% hoger verlooppercentage hadden op 30 dagen. Het productteam voegde een geautomatiseerde e-mailsequentie toe die op uur 24 werd getriggerd, waardoor het 30-daags verloop met 8 procentpunten daalde."
19. Hoe om te gaan met conflicterende dataverzoeken van stakeholders
Deze vraag test prioriterings- en communicatievaardigheden. De aanbevolen aanpak: de zakelijke vraag achter elk verzoek verduidelijken, gedeelde metrics identificeren, een enkel dashboard voorstellen dat beide behoeften bedient en compromissen transparant documenteren. Nee zeggen tegen een stakeholder is aanvaardbaar wanneer het wordt onderbouwd door data governance-zorgen of resourcebeperkingen, mits een alternatief wordt aangeboden.
20. Een complexe analyse uitleggen aan een niet-technisch publiek
Interviewers vragen kandidaten vaak een concept als regressie of cohortanalyse uit te leggen alsof ze spreken met een marketingmanager. De beste antwoorden gebruiken analogieen, vermijden jargon en verankeren de uitleg in een bedrijfsresultaat. "Cohortanalyse groepeert klanten op de maand waarin ze zich aanmeldden en volgt hoeveel er drie maanden later nog actief zijn. De grafiek toont dat aanmeldingen in januari beter retineerden dan die in februari, wat aansluit bij de onboarding-wijzigingen die eind december werden uitgerold."
Situatie: stel de context. Taak: definieer het doel. Actie: beschrijf de specifieke stappen. Resultaat: kwantificeer de impact. Interviewers penaliseren vage antwoorden die de Resultaat-stap overslaan.
Data Cleaning en ETL Sollicitatievragen
Datakwaliteitsproblemen nemen een aanzienlijk deel van de tijd van een analist in beslag. Deze vragen testen vaardigheden in real-world data wrangling.
21. Hoe data te valideren nadat een ETL-pipeline is uitgevoerd
Validatiecontroles moeten rijtellingen dekken (bron vs. bestemming), null-percentages op kritieke kolommen, referentiele integriteit tussen tabellen en verschuivingen in waardeverdeling (om stille schemawijzigingen te detecteren). Geautomatiseerde controles die na elke pipeline-uitvoering draaien, voorkomen dat foutieve data dashboards bereikt.
# etl_validation.py
import pandas as pd
def validate_pipeline(source_df: pd.DataFrame, target_df: pd.DataFrame) -> dict:
checks = {}
# Row count match
checks['row_count_match'] = len(source_df) == len(target_df)
# Null rate on critical columns
for col in ['user_id', 'event_date', 'amount']:
null_rate = target_df[col].isnull().mean()
checks[f'{col}_null_rate'] = round(null_rate, 4)
# Revenue reconciliation
source_total = source_df['amount'].sum()
target_total = target_df['amount'].sum()
checks['revenue_diff_pct'] = round(
abs(source_total - target_total) / source_total * 100, 2
)
return checks
results = validate_pipeline(source, target)
for check, value in results.items():
print(f'{check}: {value}')Deze functie retourneert een dictionary met validatieresultaten die een alertingsysteem kan voeden. Een omzetverschil boven 0,01% moet een onderzoek triggeren.
22. Wat is het verschil tussen genormaliseerde en gedenormaliseerde data?
Genormaliseerde data minimaliseert redundantie door informatie over gerelateerde tabellen te verdelen (3NF). Gedenormaliseerde data combineert tabellen in bredere, plattere structuren geoptimaliseerd voor leesintensieve analytische queries. OLTP-systemen geven de voorkeur aan normalisatie voor data-integriteit. Datawarehouses en BI-tools geven de voorkeur aan denormalisatie (ster-schema, snowflake-schema) voor querysnelheid. Het begrijpen van deze afweging is fundamenteel voor het ontwerpen van efficiente datapipelines.
Geavanceerde Analytics Vragen
Senior functies vereisen bekendheid met experimentatie, forecasting en cross-functionele datastrategie.
23. Hoe een A/B-test vanaf nul op te zetten
Een A/B-test vereist vijf componenten: een duidelijke hypothese ("Het veranderen van de CTA-knopkleur van grijs naar groen verhoogt het doorklikpercentage met 5%"), een primaire metric (doorklikpercentage), een steekproefgrootteberekening gebaseerd op het verwachte effectgrootte en gewenste power (doorgaans 80%), willekeurige toewijzing van gebruikers aan controle- en behandelgroepen, en een vooraf bepaalde testduur die rekening houdt met wekelijkse seizoensinvloeden. De test minstens twee volledige bedrijfscycli laten draaien voorkomt dat dag-van-de-week bias de resultaten vertekent.
Resultaten bekijken voordat de test statistische significantie bereikt, blaast het vals-positief percentage op. Registreer het analyseplan, de steekproefgrootte en de duur vooraf, voor de lancering van de test.
24. Funnel-analyse en waar drop-offs het meest uitmaken
Funnel-analyse volgt de voortgang van gebruikers door een reeks stappen (bijv. homepage-bezoek, productweergave, toevoegen aan winkelwagen, checkout, aankoop). De optimalisatie met de grootste impact richt zich op de stap met het grootste absolute verval, niet het grootste procentuele verval. Een daling van 40% van 1.000 gebruikers bij productweergave naar 600 bij toevoegen aan winkelwagen vertegenwoordigt 400 verloren gebruikers. Een daling van 50% van 100 gebruikers bij checkout naar 50 bij aankoop vertegenwoordigt slechts 50 verloren gebruikers. Prioriteit geven aan het eerste knelpunt levert meer totale conversies op.
25. Hoe een KPI-dashboard te bouwen dat stakeholders daadwerkelijk gebruiken
Dashboards falen wanneer ze te veel metrics tonen zonder hierarchie. Een effectief KPI-dashboard volgt de omgekeerde piramide: een of twee north-star metrics bovenaan (bijv. maandelijks terugkerende omzet, net promoter score), ondersteunende metrics in het midden (conversiepercentage, verlooppercentage, gemiddelde orderwaarde) en diagnostische details toegankelijk via drill-downs. De topweergave beperken tot zeven of minder metrics vermindert de cognitieve belasting. Het toevoegen van geautomatiseerde annotaties ("Omzet daalde 12% op 5 maart door een storing in de betalingsgateway") biedt context die ruwe cijfers missen.
Begin met oefenen!
Test je kennis met onze gespreksimulatoren en technische tests.
Conclusie
- SQL window functions, CTE's en cohort-queries verschijnen in vrijwel elke technische screening voor data analisten. Ze uit het hoofd kunnen schrijven is een basisverwachting.
- Beheersing van Python Pandas dekt 80% van de ad-hoc analysetaken. Focus op
merge,groupby,transformen null-afhandeling. - Statistisch redeneren (p-waarden, correlatie vs. causaliteit, experimentontwerp) onderscheidt analisten die cijfers rapporteren van degenen die ze correct interpreteren.
- Power BI- en visualisatievragen testen grafiekselectie, DAX-basisprincipes en dashboard-prestatieoptimalisatie.
- Gedragsantwoorden die het STAR-framework volgen en gekwantificeerde resultaten bevatten, overtreffen vage verhalen.
- Oefen data analytics interviewmodules op SharpSkill om deze concepten te trainen met getimede oefeningen.
- Voor verwante voorbereiding behandelt de Data Science sollicitatiegids machine learning en statistische modeleringsvragen die overlappen met senior data analyst functies.
Begin met oefenen!
Test je kennis met onze gespreksimulatoren en technische tests.
Tags
Delen
Gerelateerde artikelen

Top 25 Data Science Sollicitatievragen in 2026 (met Antwoorden)
De meest gestelde data science sollicitatievragen van 2026, inclusief Python-codevoorbeelden, statistische concepten en machine learning-uitleg voor junior tot senior data scientists.

Django Sollicitatievragen: ORM, Middleware en DRF Diepgaand Behandeld
Uitgebreide gids voor Django sollicitatievragen over ORM-optimalisatie, middleware-architectuur en Django REST Framework. Met productie-ready codevoorbeelden voor Django 5.2.