Question 1

Która miara tendencji centralnej jest najbardziej odpowiednia dla danych zawierających wartości ekstremalne (outliers)?

Accepted Answer

Mediana jest najbardziej odporną miarą tendencji centralnej wobec wartości odstających, ponieważ reprezentuje wartość środkową posortowanych danych, niezakłóconą przez wartości ekstremalne. W przeciwieństwie do średniej, która sumuje wszystkie wartości, mediana uwzględnia tylko pozycję. Na przykład dla wynagrodzeń w firmie z kilkoma wysoko opłacanymi dyrektorami mediana lepiej reprezentuje typowe wynagrodzenie niż średnia.

Question 2

Czym jest wariancja zbioru danych?

Accepted Answer

Wariancja mierzy rozproszenie danych wokół ich średniej. Oblicza się ją jako średnią kwadratów odchyleń od średniej. Podnosząc do kwadratu, otrzymujemy zawsze dodatnie wartości i wzmacniamy wpływ wartości odległych od średniej. Jednostka wariancji to kwadrat jednostki oryginalnych danych, dlatego często używamy odchylenia standardowego (pierwiastek kwadratowy z wariancji) do interpretacji rozproszenia w oryginalnej jednostce.

Question 3

Jaki jest związek między odchyleniem standardowym a wariancją?

Accepted Answer

Odchylenie standardowe to pierwiastek kwadratowy z wariancji. Ta transformacja przywraca miarę rozproszenia do oryginalnej jednostki danych, ułatwiając interpretację. Na przykład, jeśli dane są w euro, wariancja będzie w euro kwadrat (trudna do interpretacji), podczas gdy odchylenie standardowe będzie w euro. Dlatego odchylenie standardowe jest preferowane do intuicyjnego komunikowania rozproszenia danych.

Statystyka opisowa

Która miara tendencji centralnej jest najbardziej odpowiednia dla danych zawierających wartości ekstremalne (outliers)?

Odpowiedź

Czym jest wariancja zbioru danych?

Odpowiedź

Jaki jest związek między odchyleniem standardowym a wariancją?

Odpowiedź

Co reprezentuje pierwszy kwartyl (Q1) rozkładu?

Jak interpretować współczynnik korelacji Pearsona równy -0.85?

Inne tematy rekrutacyjne Data Science & ML

Podstawy Pythona

Programowanie Obiektowe w Pythonie

Struktury danych Python

Podstawy Git

Podstawy SQL

Podstawy NumPy

Podstawy Pandas

Jupyter & Google Colab

SQL Joins i zaawansowane zapytania

Zaawansowany Pandas

Wizualizacja z Matplotlib & Seaborn

Interaktywne wizualizacje z Plotly

Statystyka inferencyjna

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Uczenie nadzorowane: Regresja

Uczenie nadzorowane: Klasyfikacja

Drzewa Decyzyjne i Ensembles

ML Nienadzorowane

Pipeline'y ML i walidacja

Szeregi czasowe i prognozowanie

Podstawy Deep Learning

TensorFlow & Keras

CNN i klasyfikacja obrazów

RNN i Sekwencje

Transformers i Attention

NLP i Hugging Face

GenAI i LangChain

MLOps i Wdrożenie

Opanuj Data Science & ML na następną rozmowę