Question 1

Quale misura di tendenza centrale è la più appropriata per dati contenenti valori estremi (outlier)?

Accepted Answer

La mediana è la misura di tendenza centrale più robusta agli outlier perché rappresenta il valore centrale dei dati ordinati, senza essere influenzata dai valori estremi. A differenza della media che somma tutti i valori, la mediana considera solo la posizione. Ad esempio, per gli stipendi di un'azienda con alcuni dirigenti molto ben pagati, la mediana fornisce una migliore rappresentazione dello stipendio tipico rispetto alla media.

Question 2

Cos'è la varianza di un insieme di dati?

Accepted Answer

La varianza misura la dispersione dei dati attorno alla loro media. Si calcola come media dei quadrati degli scarti dalla media. Elevando al quadrato, otteniamo valori sempre positivi e amplifichiamo l'impatto dei valori distanti dalla media. L'unità della varianza è il quadrato dell'unità dei dati originali, motivo per cui spesso si usa la deviazione standard (radice quadrata della varianza) per interpretare la dispersione nell'unità originale.

Question 3

Qual è la relazione tra deviazione standard e varianza?

Accepted Answer

La deviazione standard è la radice quadrata della varianza. Questa trasformazione riporta la misura di dispersione all'unità originale dei dati, facilitando l'interpretazione. Ad esempio, se i dati sono in euro, la varianza sarà in euro al quadrato (difficile da interpretare), mentre la deviazione standard sarà in euro. La deviazione standard è quindi preferita per comunicare la dispersione dei dati in modo intuitivo.

Statistica descrittiva

Quale misura di tendenza centrale è la più appropriata per dati contenenti valori estremi (outlier)?

Risposta

Cos'è la varianza di un insieme di dati?

Risposta

Qual è la relazione tra deviazione standard e varianza?

Risposta

Cosa rappresenta il primo quartile (Q1) di una distribuzione?

Come interpretare un coefficiente di correlazione di Pearson pari a -0.85?

Altri argomenti di colloquio Data Science & ML

Fondamenti di Python

Programmazione Orientata agli Oggetti in Python

Strutture dati Python

Fondamenti di Git

Fondamenti di SQL

Fondamenti di NumPy

Fondamenti di Pandas

Jupyter & Google Colab

SQL Joins e query avanzate

Pandas avanzato

Visualizzazione con Matplotlib & Seaborn

Visualizzazioni interattive con Plotly

Statistica inferenziale

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisionato: Regressione

ML Supervisionato: Classificazione

Alberi Decisionali e Ensembles

ML Non Supervisionato

Pipeline ML e Validazione

Serie Temporali e Previsione

Fondamenti di Deep Learning

TensorFlow & Keras

CNN e classificazione di immagini

RNN e Sequenze

Transformers e Attention

NLP e Hugging Face

GenAI e LangChain

MLOps e Deployment

Padroneggia Data Science & ML per il tuo prossimo colloquio