Question 1

Welches Maß der zentralen Tendenz ist am besten geeignet für Daten mit Extremwerten (Ausreißern)?

Accepted Answer

Der Median ist das robusteste Maß der zentralen Tendenz gegenüber Ausreißern, da er den mittleren Wert sortierter Daten darstellt und nicht von Extremwerten beeinflusst wird. Im Gegensatz zum Mittelwert, der alle Werte summiert, berücksichtigt der Median nur die Position. Bei Gehältern eines Unternehmens mit einigen hochbezahlten Führungskräften gibt der Median beispielsweise eine bessere Darstellung des typischen Gehalts als der Mittelwert.

Question 2

Was ist die Varianz eines Datensatzes?

Accepted Answer

Die Varianz misst die Streuung der Daten um ihren Mittelwert. Sie wird als Durchschnitt der quadrierten Abweichungen vom Mittelwert berechnet. Durch das Quadrieren erhält man stets positive Werte und verstärkt den Einfluss von Werten, die weit vom Mittelwert entfernt sind. Die Einheit der Varianz ist das Quadrat der ursprünglichen Datenmaßeinheit, weshalb häufig die Standardabweichung (Quadratwurzel der Varianz) verwendet wird, um die Streuung in der ursprünglichen Einheit zu interpretieren.

Question 3

Wie ist das Verhältnis zwischen Standardabweichung und Varianz?

Accepted Answer

Die Standardabweichung ist die Quadratwurzel der Varianz. Diese Transformation bringt das Streuungsmaß zurück in die ursprüngliche Datenmaßeinheit und erleichtert die Interpretation. Wenn die Daten in Euro sind, ist die Varianz in Quadrat-Euro (schwer zu interpretieren), während die Standardabweichung in Euro ist. Daher wird die Standardabweichung bevorzugt, um die Datenstreuung intuitiv zu kommunizieren.

Deskriptive Statistik

Welches Maß der zentralen Tendenz ist am besten geeignet für Daten mit Extremwerten (Ausreißern)?

Antwort

Was ist die Varianz eines Datensatzes?

Antwort

Wie ist das Verhältnis zwischen Standardabweichung und Varianz?

Antwort

Was stellt das erste Quartil (Q1) einer Verteilung dar?

Wie interpretiert man einen Pearson-Korrelationskoeffizienten von -0.85?

Weitere Data Science & ML-Interviewthemen

Python-Grundlagen

Python Objektorientierte Programmierung

Python-Datenstrukturen

Git-Grundlagen

SQL-Grundlagen

NumPy-Grundlagen

Pandas-Grundlagen

Jupyter & Google Colab

SQL Joins & fortgeschrittene Abfragen

Fortgeschrittenes Pandas

Visualisierung mit Matplotlib & Seaborn

Interaktive Visualisierungen mit Plotly

Inferenzstatistik

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Überwachtes ML: Regression

Überwachtes ML: Klassifikation

Entscheidungsbäume & Ensembles

Unüberwachtes ML

ML-Pipelines & Validierung

Zeitreihen & Prognosen

Grundlagen des Deep Learning

TensorFlow & Keras

CNN und Bildklassifizierung

RNN & Sequenzen

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps und Deployment

Meistere Data Science & ML für dein nächstes Interview