Question 1

Was ist der Hauptunterschied zwischen überwachtem und unüberwachtem Lernen?

Accepted Answer

Unüberwachtes Lernen arbeitet mit unbeschrifteten Daten und versucht, verborgene Strukturen oder Muster ohne vordefinierte Zielvariable zu entdecken. Im Gegensatz zum überwachten Lernen, das einen bekannten Wert (Label) vorhersagt, erforscht unüberwachtes Lernen Daten, um natürliche Gruppen zu finden, die Dimensionalität zu reduzieren oder Anomalien zu erkennen. Algorithmen wie K-Means, PCA oder DBSCAN sind typische Beispiele für unüberwachtes Lernen.

Question 2

Wie funktioniert der K-Means-Algorithmus, um Daten zu partitionieren?

Accepted Answer

K-Means ist ein iterativer Algorithmus, der Daten in K Cluster partitioniert. Er initialisiert K Zentroide zufällig und wechselt dann zwischen zwei Schritten: Jeden Punkt dem nächsten Zentroid zuweisen (Zuweisungsschritt) und die Zentroidpositionen als Mittelwert der zugewiesenen Punkte neu berechnen (Aktualisierungsschritt). Der Algorithmus konvergiert, wenn sich die Zuweisungen nicht mehr ändern oder nach einer maximalen Anzahl von Iterationen.

Question 3

Welche Methode sollte verwendet werden, um die optimale Anzahl der Cluster K in K-Means zu bestimmen?

Accepted Answer

Die Elbow Method zeichnet die Inertia (Summe der quadrierten Distanzen zwischen jedem Punkt und seinem Zentroid) gegen K auf. Der Punkt, an dem die Kurve einen Ellbogen bildet, zeigt das optimale K an, da das Hinzufügen weiterer Cluster die Inertia nicht mehr signifikant verbessert. Diese Methode wird durch den Silhouette Score ergänzt, um die Clusterqualität zu validieren.

Unüberwachtes ML

Was ist der Hauptunterschied zwischen überwachtem und unüberwachtem Lernen?

Antwort

Wie funktioniert der K-Means-Algorithmus, um Daten zu partitionieren?

Antwort

Welche Methode sollte verwendet werden, um die optimale Anzahl der Cluster K in K-Means zu bestimmen?

Antwort

Was misst der Silhouette Score im Kontext des Clusterings?

Was ist der Wertebereich des Silhouette Scores und wie interpretiert man einen Wert von 0,7?

Weitere Data Science & ML-Interviewthemen

Python-Grundlagen

Python Objektorientierte Programmierung

Python-Datenstrukturen

Git-Grundlagen

SQL-Grundlagen

NumPy-Grundlagen

Pandas-Grundlagen

Jupyter & Google Colab

SQL Joins & fortgeschrittene Abfragen

Fortgeschrittenes Pandas

Visualisierung mit Matplotlib & Seaborn

Interaktive Visualisierungen mit Plotly

Deskriptive Statistik

Inferenzstatistik

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Überwachtes ML: Regression

Überwachtes ML: Klassifikation

Entscheidungsbäume & Ensembles

ML-Pipelines & Validierung

Zeitreihen & Prognosen

Grundlagen des Deep Learning

TensorFlow & Keras

CNN und Bildklassifizierung

RNN & Sequenzen

Transformers & Attention

NLP & Hugging Face

GenAI & LangChain

MLOps und Deployment

Meistere Data Science & ML für dein nächstes Interview