
Beschrijvende statistiek
Gemiddelde, mediaan, standaarddeviatie, kwartielen, verdelingen, correlaties, outliers, skewness
1Welke maatstaf voor centrale tendens is het meest geschikt voor data met extreme waarden (outliers)?
Welke maatstaf voor centrale tendens is het meest geschikt voor data met extreme waarden (outliers)?
Antwoord
De mediaan is de meest robuuste maatstaf voor centrale tendens tegen outliers omdat deze de middelste waarde van gesorteerde data vertegenwoordigt, zonder beïnvloed te worden door extreme waarden. In tegenstelling tot het gemiddelde dat alle waarden optelt, beschouwt de mediaan alleen de positie. Bij salarissen van een bedrijf met een paar hoogbetaalde directeuren geeft de mediaan bijvoorbeeld een betere weergave van het typische salaris dan het gemiddelde.
2Wat is de variantie van een dataset?
Wat is de variantie van een dataset?
Antwoord
De variantie meet de spreiding van de data rond het gemiddelde. Het wordt berekend als het gemiddelde van de kwadraten van de afwijkingen van het gemiddelde. Door te kwadrateren krijgen we altijd positieve waarden en versterken we de impact van waarden die ver van het gemiddelde liggen. De eenheid van de variantie is het kwadraat van de oorspronkelijke data-eenheid, daarom gebruiken we vaak de standaarddeviatie (vierkantswortel van de variantie) om de spreiding in de oorspronkelijke eenheid te interpreteren.
3Wat is de relatie tussen standaarddeviatie en variantie?
Wat is de relatie tussen standaarddeviatie en variantie?
Antwoord
De standaarddeviatie is de vierkantswortel van de variantie. Deze transformatie brengt de spreidingsmaat terug naar de oorspronkelijke data-eenheid, wat de interpretatie vergemakkelijkt. Als data bijvoorbeeld in euro's is, zal de variantie in kwadraat-euro's zijn (moeilijk te interpreteren), terwijl de standaarddeviatie in euro's zal zijn. Daarom heeft de standaarddeviatie de voorkeur om datasprenading intuïtief te communiceren.
Wat vertegenwoordigt het eerste kwartiel (Q1) van een verdeling?
Hoe interpreteer je een Pearson-correlatiecoëfficiënt van -0.85?
+17 gespreksvragen
Andere Data Science & ML-sollicitatieonderwerpen
Python-basisbeginselen
Python Objectgeoriënteerd Programmeren
Python-datastructuren
Git-Fundamenten
SQL-basisbeginselen
NumPy-grondbeginselen
Pandas-basis
Jupyter & Google Colab
SQL Joins & geavanceerde queries
Geavanceerd Pandas
Visualisatie met Matplotlib & Seaborn
Interactieve visualisaties met Plotly
Inferentiële statistiek
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Supervised ML: Regressie
Supervised ML: Classificatie
Beslissingsbomen & Ensembles
Ongesuperviseerd ML
ML Pipelines & Validatie
Tijdreeksen & Voorspelling
Fundamenten van Deep Learning
TensorFlow & Keras
CNN en beeldclassificatie
RNN & Reeksen
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps en Deployment
Beheers Data Science & ML voor je volgende gesprek
Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.
Begin gratis