Data Analytics

Beschrijvende statistiek

Gemiddelde vs mediaan, variantie, standaardafwijking, normale verdeling, scheefheid, correlatie vs causaliteit, steekproefvertekening, percentielen

20 gespreksvragen·
Junior
1

Welke maat van centrale tendentie vertegenwoordigt de waarde die een gesorteerde dataset in twee gelijke helften verdeelt?

Antwoord

De mediaan is de middelste waarde van een dataset die in oplopende volgorde is gesorteerd. Het scheidt precies 50% van de lagere waarden van 50% van de hogere waarden. In tegenstelling tot het gemiddelde wordt de mediaan niet beïnvloed door extreme waarden, wat het een robuustere indicator maakt voor scheve verdelingen zoals inkomens of vastgoedprijzen.

2

Wat is het fundamentele verschil tussen het gemiddelde en de mediaan?

Antwoord

Het gemiddelde houdt rekening met alle waarden en is daarom gevoelig voor extreme waarden (uitschieters), terwijl de mediaan alleen afhangt van de centrale positie van de gesorteerde gegevens. Als bijvoorbeeld vijf salarissen 30k, 35k, 40k, 45k en 500k zijn, wordt het gemiddelde omhoog getrokken door 500k (130k), terwijl de mediaan op 40k blijft, wat de werkelijkheid van de groep beter weerspiegelt.

3

Wat is de modus in een dataset?

Antwoord

De modus is de waarde die het meest frequent voorkomt in een dataset. Een dataset kan unimodaal (één modus), bimodaal (twee modi) of multimodaal (meerdere modi) zijn. De modus is de enige maat van centrale tendentie die kan worden gebruikt met categorische gegevens, zoals favoriete kleur of best verkochte productcategorie.

4

Wat meet de variantie in een dataset?

5

Wat is de relatie tussen variantie en standaardafwijking?

+17 gespreksvragen

Beheers Data Analytics voor je volgende gesprek

Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.

Begin gratis