Data Science & ML

ML Nienadzorowane

K-Means, klastrowanie hierarchiczne, DBSCAN, PCA, t-SNE, UMAP, silhouette score, elbow method

22 pytań z rozmów·
Mid-Level
1

Jaka jest główna różnica między uczeniem nadzorowanym a nienadzorowanym?

Odpowiedź

Uczenie nienadzorowane działa z danymi bez etykiet, próbując odkryć ukryte struktury lub wzorce bez wstępnie zdefiniowanej zmiennej docelowej. W przeciwieństwie do uczenia nadzorowanego, które przewiduje znaną wartość (etykietę), uczenie nienadzorowane eksploruje dane, aby znaleźć naturalne grupy, zredukować wymiarowość lub wykryć anomalie. Algorytmy takie jak K-Means, PCA czy DBSCAN są typowymi przykładami uczenia nienadzorowanego.

2

Jak działa algorytm K-Means do partycjonowania danych?

Odpowiedź

K-Means to iteracyjny algorytm, który dzieli dane na K klastrów. Inicjalizuje losowo K centroidów, następnie naprzemiennie wykonuje dwa kroki: przypisanie każdego punktu do najbliższego centroidu (krok przypisania) i ponowne obliczenie pozycji centroidów jako średniej przypisanych punktów (krok aktualizacji). Algorytm zbiega się, gdy przypisania już się nie zmieniają lub po maksymalnej liczbie iteracji.

3

Jakiej metody użyć do określenia optymalnej liczby klastrów K w K-Means?

Odpowiedź

Elbow method wykreśla inercję (sumę kwadratów odległości między każdym punktem a jego centroidem) względem K. Punkt, w którym krzywa tworzy łokieć, wskazuje optymalne K, ponieważ poza nim dodawanie klastrów nie poprawia już znacząco inercji. Metoda ta jest uzupełniana silhouette score do walidacji jakości klastrów.

4

Co mierzy silhouette score w kontekście klastrowania?

5

Jaki jest zakres wartości silhouette score i jak interpretować wynik 0.7?

+19 pytań z rozmów

Opanuj Data Science & ML na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo