Question 1

Jaka jest główna różnica między uczeniem nadzorowanym a nienadzorowanym?

Accepted Answer

Uczenie nienadzorowane działa z danymi bez etykiet, próbując odkryć ukryte struktury lub wzorce bez wstępnie zdefiniowanej zmiennej docelowej. W przeciwieństwie do uczenia nadzorowanego, które przewiduje znaną wartość (etykietę), uczenie nienadzorowane eksploruje dane, aby znaleźć naturalne grupy, zredukować wymiarowość lub wykryć anomalie. Algorytmy takie jak K-Means, PCA czy DBSCAN są typowymi przykładami uczenia nienadzorowanego.

Question 2

Jak działa algorytm K-Means do partycjonowania danych?

Accepted Answer

K-Means to iteracyjny algorytm, który dzieli dane na K klastrów. Inicjalizuje losowo K centroidów, następnie naprzemiennie wykonuje dwa kroki: przypisanie każdego punktu do najbliższego centroidu (krok przypisania) i ponowne obliczenie pozycji centroidów jako średniej przypisanych punktów (krok aktualizacji). Algorytm zbiega się, gdy przypisania już się nie zmieniają lub po maksymalnej liczbie iteracji.

Question 3

Jakiej metody użyć do określenia optymalnej liczby klastrów K w K-Means?

Accepted Answer

Elbow method wykreśla inercję (sumę kwadratów odległości między każdym punktem a jego centroidem) względem K. Punkt, w którym krzywa tworzy łokieć, wskazuje optymalne K, ponieważ poza nim dodawanie klastrów nie poprawia już znacząco inercji. Metoda ta jest uzupełniana silhouette score do walidacji jakości klastrów.

ML Nienadzorowane

Jaka jest główna różnica między uczeniem nadzorowanym a nienadzorowanym?

Odpowiedź

Jak działa algorytm K-Means do partycjonowania danych?

Odpowiedź

Jakiej metody użyć do określenia optymalnej liczby klastrów K w K-Means?

Odpowiedź

Co mierzy silhouette score w kontekście klastrowania?

Jaki jest zakres wartości silhouette score i jak interpretować wynik 0.7?

Inne tematy rekrutacyjne Data Science & ML

Podstawy Pythona

Programowanie Obiektowe w Pythonie

Struktury danych Python

Podstawy Git

Podstawy SQL

Podstawy NumPy

Podstawy Pandas

Jupyter & Google Colab

SQL Joins i zaawansowane zapytania

Zaawansowany Pandas

Wizualizacja z Matplotlib & Seaborn

Interaktywne wizualizacje z Plotly

Statystyka opisowa

Statystyka inferencyjna

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Uczenie nadzorowane: Regresja

Uczenie nadzorowane: Klasyfikacja

Drzewa Decyzyjne i Ensembles

Pipeline'y ML i walidacja

Szeregi czasowe i prognozowanie

Podstawy Deep Learning

TensorFlow & Keras

CNN i klasyfikacja obrazów

RNN i Sekwencje

Transformers i Attention

NLP i Hugging Face

GenAI i LangChain

MLOps i Wdrożenie

Opanuj Data Science & ML na następną rozmowę