
Statystyka opisowa
Średnia, mediana, odchylenie standardowe, kwartyle, rozkłady, korelacje, wartości odstające, skośność
1Która miara tendencji centralnej jest najbardziej odpowiednia dla danych zawierających wartości ekstremalne (outliers)?
Która miara tendencji centralnej jest najbardziej odpowiednia dla danych zawierających wartości ekstremalne (outliers)?
Odpowiedź
Mediana jest najbardziej odporną miarą tendencji centralnej wobec wartości odstających, ponieważ reprezentuje wartość środkową posortowanych danych, niezakłóconą przez wartości ekstremalne. W przeciwieństwie do średniej, która sumuje wszystkie wartości, mediana uwzględnia tylko pozycję. Na przykład dla wynagrodzeń w firmie z kilkoma wysoko opłacanymi dyrektorami mediana lepiej reprezentuje typowe wynagrodzenie niż średnia.
2Czym jest wariancja zbioru danych?
Czym jest wariancja zbioru danych?
Odpowiedź
Wariancja mierzy rozproszenie danych wokół ich średniej. Oblicza się ją jako średnią kwadratów odchyleń od średniej. Podnosząc do kwadratu, otrzymujemy zawsze dodatnie wartości i wzmacniamy wpływ wartości odległych od średniej. Jednostka wariancji to kwadrat jednostki oryginalnych danych, dlatego często używamy odchylenia standardowego (pierwiastek kwadratowy z wariancji) do interpretacji rozproszenia w oryginalnej jednostce.
3Jaki jest związek między odchyleniem standardowym a wariancją?
Jaki jest związek między odchyleniem standardowym a wariancją?
Odpowiedź
Odchylenie standardowe to pierwiastek kwadratowy z wariancji. Ta transformacja przywraca miarę rozproszenia do oryginalnej jednostki danych, ułatwiając interpretację. Na przykład, jeśli dane są w euro, wariancja będzie w euro kwadrat (trudna do interpretacji), podczas gdy odchylenie standardowe będzie w euro. Dlatego odchylenie standardowe jest preferowane do intuicyjnego komunikowania rozproszenia danych.
Co reprezentuje pierwszy kwartyl (Q1) rozkładu?
Jak interpretować współczynnik korelacji Pearsona równy -0.85?
+17 pytań z rozmów
Inne tematy rekrutacyjne Data Science & ML
Podstawy Pythona
Programowanie Obiektowe w Pythonie
Struktury danych Python
Podstawy Git
Podstawy SQL
Podstawy NumPy
Podstawy Pandas
Jupyter & Google Colab
SQL Joins i zaawansowane zapytania
Zaawansowany Pandas
Wizualizacja z Matplotlib & Seaborn
Interaktywne wizualizacje z Plotly
Statystyka inferencyjna
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Uczenie nadzorowane: Regresja
Uczenie nadzorowane: Klasyfikacja
Drzewa Decyzyjne i Ensembles
ML Nienadzorowane
Pipeline'y ML i walidacja
Szeregi czasowe i prognozowanie
Podstawy Deep Learning
TensorFlow & Keras
CNN i klasyfikacja obrazów
RNN i Sekwencje
Transformers i Attention
NLP i Hugging Face
GenAI i LangChain
MLOps i Wdrożenie
Opanuj Data Science & ML na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo