Data Science & ML

Statystyka opisowa

Średnia, mediana, odchylenie standardowe, kwartyle, rozkłady, korelacje, wartości odstające, skośność

20 pytań z rozmów·
Mid-Level
1

Która miara tendencji centralnej jest najbardziej odpowiednia dla danych zawierających wartości ekstremalne (outliers)?

Odpowiedź

Mediana jest najbardziej odporną miarą tendencji centralnej wobec wartości odstających, ponieważ reprezentuje wartość środkową posortowanych danych, niezakłóconą przez wartości ekstremalne. W przeciwieństwie do średniej, która sumuje wszystkie wartości, mediana uwzględnia tylko pozycję. Na przykład dla wynagrodzeń w firmie z kilkoma wysoko opłacanymi dyrektorami mediana lepiej reprezentuje typowe wynagrodzenie niż średnia.

2

Czym jest wariancja zbioru danych?

Odpowiedź

Wariancja mierzy rozproszenie danych wokół ich średniej. Oblicza się ją jako średnią kwadratów odchyleń od średniej. Podnosząc do kwadratu, otrzymujemy zawsze dodatnie wartości i wzmacniamy wpływ wartości odległych od średniej. Jednostka wariancji to kwadrat jednostki oryginalnych danych, dlatego często używamy odchylenia standardowego (pierwiastek kwadratowy z wariancji) do interpretacji rozproszenia w oryginalnej jednostce.

3

Jaki jest związek między odchyleniem standardowym a wariancją?

Odpowiedź

Odchylenie standardowe to pierwiastek kwadratowy z wariancji. Ta transformacja przywraca miarę rozproszenia do oryginalnej jednostki danych, ułatwiając interpretację. Na przykład, jeśli dane są w euro, wariancja będzie w euro kwadrat (trudna do interpretacji), podczas gdy odchylenie standardowe będzie w euro. Dlatego odchylenie standardowe jest preferowane do intuicyjnego komunikowania rozproszenia danych.

4

Co reprezentuje pierwszy kwartyl (Q1) rozkładu?

5

Jak interpretować współczynnik korelacji Pearsona równy -0.85?

+17 pytań z rozmów

Opanuj Data Science & ML na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo