Question 1

Яка міра центральної тенденції є найбільш відповідною для даних, що містять екстремальні значення (викиди)?

Accepted Answer

Медіана є найбільш стійкою мірою центральної тенденції до викидів, оскільки представляє середнє значення відсортованих даних, не зазнаючи впливу екстремальних значень. На відміну від середнього, яке сумує всі значення, медіана враховує лише позицію. Наприклад, для зарплат компанії з кількома високооплачуваними керівниками медіана дає кращу репрезентацію типової зарплати, ніж середнє.

Question 2

Що таке дисперсія набору даних?

Accepted Answer

Дисперсія вимірює розкид даних навколо їхнього середнього значення. Вона обчислюється як середнє квадратів відхилень від середнього. Піднесення до квадрату дає завжди додатні значення і посилює вплив значень, далеких від середнього. Одиниця дисперсії — це квадрат одиниці оригінальних даних, тому ми часто використовуємо стандартне відхилення (квадратний корінь з дисперсії) для інтерпретації розкиду в оригінальній одиниці.

Question 3

Який зв'язок між стандартним відхиленням і дисперсією?

Accepted Answer

Стандартне відхилення — це квадратний корінь з дисперсії. Це перетворення повертає міру розкиду до оригінальної одиниці даних, спрощуючи інтерпретацію. Наприклад, якщо дані в євро, дисперсія буде в євро в квадраті (важко інтерпретувати), а стандартне відхилення — в євро. Тому стандартне відхилення є кращим для інтуїтивної передачі розкиду даних.

Описова статистика

Яка міра центральної тенденції є найбільш відповідною для даних, що містять екстремальні значення (викиди)?

Відповідь

Що таке дисперсія набору даних?

Відповідь

Який зв'язок між стандартним відхиленням і дисперсією?

Відповідь

Що представляє перший квартиль (Q1) розподілу?

Як інтерпретувати коефіцієнт кореляції Пірсона, що дорівнює -0.85?

Інші теми співбесід Data Science & ML

Основи Python

Об'єктно-орієнтоване програмування Python

Структури даних Python

Основи Git

Основи SQL

Основи NumPy

Основи Pandas

Jupyter & Google Colab

SQL Joins та розширені запити

Просунутий Pandas

Візуалізація з Matplotlib & Seaborn

Інтерактивні візуалізації з Plotly

Інференційна статистика

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Кероване ML: Регресія

Кероване ML: Класифікація

Дерева рішень та ансамблі

Некероване ML

ML Pipelines та валідація

Часові ряди та прогнозування

Основи Deep Learning

TensorFlow & Keras

CNN та класифікація зображень

RNN та послідовності

Transformers та Attention

NLP та Hugging Face

GenAI та LangChain

MLOps та розгортання

Опануй Data Science & ML для наступної співбесіди