
ML Nienadzorowane
K-Means, klastrowanie hierarchiczne, DBSCAN, PCA, t-SNE, UMAP, silhouette score, elbow method
1Jaka jest główna różnica między uczeniem nadzorowanym a nienadzorowanym?
Jaka jest główna różnica między uczeniem nadzorowanym a nienadzorowanym?
Odpowiedź
Uczenie nienadzorowane działa z danymi bez etykiet, próbując odkryć ukryte struktury lub wzorce bez wstępnie zdefiniowanej zmiennej docelowej. W przeciwieństwie do uczenia nadzorowanego, które przewiduje znaną wartość (etykietę), uczenie nienadzorowane eksploruje dane, aby znaleźć naturalne grupy, zredukować wymiarowość lub wykryć anomalie. Algorytmy takie jak K-Means, PCA czy DBSCAN są typowymi przykładami uczenia nienadzorowanego.
2Jak działa algorytm K-Means do partycjonowania danych?
Jak działa algorytm K-Means do partycjonowania danych?
Odpowiedź
K-Means to iteracyjny algorytm, który dzieli dane na K klastrów. Inicjalizuje losowo K centroidów, następnie naprzemiennie wykonuje dwa kroki: przypisanie każdego punktu do najbliższego centroidu (krok przypisania) i ponowne obliczenie pozycji centroidów jako średniej przypisanych punktów (krok aktualizacji). Algorytm zbiega się, gdy przypisania już się nie zmieniają lub po maksymalnej liczbie iteracji.
3Jakiej metody użyć do określenia optymalnej liczby klastrów K w K-Means?
Jakiej metody użyć do określenia optymalnej liczby klastrów K w K-Means?
Odpowiedź
Elbow method wykreśla inercję (sumę kwadratów odległości między każdym punktem a jego centroidem) względem K. Punkt, w którym krzywa tworzy łokieć, wskazuje optymalne K, ponieważ poza nim dodawanie klastrów nie poprawia już znacząco inercji. Metoda ta jest uzupełniana silhouette score do walidacji jakości klastrów.
Co mierzy silhouette score w kontekście klastrowania?
Jaki jest zakres wartości silhouette score i jak interpretować wynik 0.7?
+19 pytań z rozmów
Inne tematy rekrutacyjne Data Science & ML
Podstawy Pythona
Programowanie Obiektowe w Pythonie
Struktury danych Python
Podstawy Git
Podstawy SQL
Podstawy NumPy
Podstawy Pandas
Jupyter & Google Colab
SQL Joins i zaawansowane zapytania
Zaawansowany Pandas
Wizualizacja z Matplotlib & Seaborn
Interaktywne wizualizacje z Plotly
Statystyka opisowa
Statystyka inferencyjna
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Uczenie nadzorowane: Regresja
Uczenie nadzorowane: Klasyfikacja
Drzewa Decyzyjne i Ensembles
Pipeline'y ML i walidacja
Szeregi czasowe i prognozowanie
Podstawy Deep Learning
TensorFlow & Keras
CNN i klasyfikacja obrazów
RNN i Sekwencje
Transformers i Attention
NLP i Hugging Face
GenAI i LangChain
MLOps i Wdrożenie
Opanuj Data Science & ML na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo