
Deskriptive Statistik
Mittelwert, Median, Standardabweichung, Quartile, Verteilungen, Korrelationen, Ausreißer, Schiefe
1Welches Maß der zentralen Tendenz ist am besten geeignet für Daten mit Extremwerten (Ausreißern)?
Welches Maß der zentralen Tendenz ist am besten geeignet für Daten mit Extremwerten (Ausreißern)?
Antwort
Der Median ist das robusteste Maß der zentralen Tendenz gegenüber Ausreißern, da er den mittleren Wert sortierter Daten darstellt und nicht von Extremwerten beeinflusst wird. Im Gegensatz zum Mittelwert, der alle Werte summiert, berücksichtigt der Median nur die Position. Bei Gehältern eines Unternehmens mit einigen hochbezahlten Führungskräften gibt der Median beispielsweise eine bessere Darstellung des typischen Gehalts als der Mittelwert.
2Was ist die Varianz eines Datensatzes?
Was ist die Varianz eines Datensatzes?
Antwort
Die Varianz misst die Streuung der Daten um ihren Mittelwert. Sie wird als Durchschnitt der quadrierten Abweichungen vom Mittelwert berechnet. Durch das Quadrieren erhält man stets positive Werte und verstärkt den Einfluss von Werten, die weit vom Mittelwert entfernt sind. Die Einheit der Varianz ist das Quadrat der ursprünglichen Datenmaßeinheit, weshalb häufig die Standardabweichung (Quadratwurzel der Varianz) verwendet wird, um die Streuung in der ursprünglichen Einheit zu interpretieren.
3Wie ist das Verhältnis zwischen Standardabweichung und Varianz?
Wie ist das Verhältnis zwischen Standardabweichung und Varianz?
Antwort
Die Standardabweichung ist die Quadratwurzel der Varianz. Diese Transformation bringt das Streuungsmaß zurück in die ursprüngliche Datenmaßeinheit und erleichtert die Interpretation. Wenn die Daten in Euro sind, ist die Varianz in Quadrat-Euro (schwer zu interpretieren), während die Standardabweichung in Euro ist. Daher wird die Standardabweichung bevorzugt, um die Datenstreuung intuitiv zu kommunizieren.
Was stellt das erste Quartil (Q1) einer Verteilung dar?
Wie interpretiert man einen Pearson-Korrelationskoeffizienten von -0.85?
+17 Interview-Fragen
Weitere Data Science & ML-Interviewthemen
Python-Grundlagen
Python Objektorientierte Programmierung
Python-Datenstrukturen
Git-Grundlagen
SQL-Grundlagen
NumPy-Grundlagen
Pandas-Grundlagen
Jupyter & Google Colab
SQL Joins & fortgeschrittene Abfragen
Fortgeschrittenes Pandas
Visualisierung mit Matplotlib & Seaborn
Interaktive Visualisierungen mit Plotly
Inferenzstatistik
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Überwachtes ML: Regression
Überwachtes ML: Klassifikation
Entscheidungsbäume & Ensembles
Unüberwachtes ML
ML-Pipelines & Validierung
Zeitreihen & Prognosen
Grundlagen des Deep Learning
TensorFlow & Keras
CNN und Bildklassifizierung
RNN & Sequenzen
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps und Deployment
Meistere Data Science & ML für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten