
Unüberwachtes ML
K-Means, hierarchisches Clustering, DBSCAN, PCA, t-SNE, UMAP, Silhouette Score, Elbow Method
1Was ist der Hauptunterschied zwischen überwachtem und unüberwachtem Lernen?
Was ist der Hauptunterschied zwischen überwachtem und unüberwachtem Lernen?
Antwort
Unüberwachtes Lernen arbeitet mit unbeschrifteten Daten und versucht, verborgene Strukturen oder Muster ohne vordefinierte Zielvariable zu entdecken. Im Gegensatz zum überwachten Lernen, das einen bekannten Wert (Label) vorhersagt, erforscht unüberwachtes Lernen Daten, um natürliche Gruppen zu finden, die Dimensionalität zu reduzieren oder Anomalien zu erkennen. Algorithmen wie K-Means, PCA oder DBSCAN sind typische Beispiele für unüberwachtes Lernen.
2Wie funktioniert der K-Means-Algorithmus, um Daten zu partitionieren?
Wie funktioniert der K-Means-Algorithmus, um Daten zu partitionieren?
Antwort
K-Means ist ein iterativer Algorithmus, der Daten in K Cluster partitioniert. Er initialisiert K Zentroide zufällig und wechselt dann zwischen zwei Schritten: Jeden Punkt dem nächsten Zentroid zuweisen (Zuweisungsschritt) und die Zentroidpositionen als Mittelwert der zugewiesenen Punkte neu berechnen (Aktualisierungsschritt). Der Algorithmus konvergiert, wenn sich die Zuweisungen nicht mehr ändern oder nach einer maximalen Anzahl von Iterationen.
3Welche Methode sollte verwendet werden, um die optimale Anzahl der Cluster K in K-Means zu bestimmen?
Welche Methode sollte verwendet werden, um die optimale Anzahl der Cluster K in K-Means zu bestimmen?
Antwort
Die Elbow Method zeichnet die Inertia (Summe der quadrierten Distanzen zwischen jedem Punkt und seinem Zentroid) gegen K auf. Der Punkt, an dem die Kurve einen Ellbogen bildet, zeigt das optimale K an, da das Hinzufügen weiterer Cluster die Inertia nicht mehr signifikant verbessert. Diese Methode wird durch den Silhouette Score ergänzt, um die Clusterqualität zu validieren.
Was misst der Silhouette Score im Kontext des Clusterings?
Was ist der Wertebereich des Silhouette Scores und wie interpretiert man einen Wert von 0,7?
+19 Interview-Fragen
Weitere Data Science & ML-Interviewthemen
Python-Grundlagen
Python Objektorientierte Programmierung
Python-Datenstrukturen
Git-Grundlagen
SQL-Grundlagen
NumPy-Grundlagen
Pandas-Grundlagen
Jupyter & Google Colab
SQL Joins & fortgeschrittene Abfragen
Fortgeschrittenes Pandas
Visualisierung mit Matplotlib & Seaborn
Interaktive Visualisierungen mit Plotly
Deskriptive Statistik
Inferenzstatistik
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Überwachtes ML: Regression
Überwachtes ML: Klassifikation
Entscheidungsbäume & Ensembles
ML-Pipelines & Validierung
Zeitreihen & Prognosen
Grundlagen des Deep Learning
TensorFlow & Keras
CNN und Bildklassifizierung
RNN & Sequenzen
Transformers & Attention
NLP & Hugging Face
GenAI & LangChain
MLOps und Deployment
Meistere Data Science & ML für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten