
Описова статистика
Середнє, медіана, стандартне відхилення, квартилі, розподіли, кореляції, викиди, асиметрія
1Яка міра центральної тенденції є найбільш відповідною для даних, що містять екстремальні значення (викиди)?
Яка міра центральної тенденції є найбільш відповідною для даних, що містять екстремальні значення (викиди)?
Відповідь
Медіана є найбільш стійкою мірою центральної тенденції до викидів, оскільки представляє середнє значення відсортованих даних, не зазнаючи впливу екстремальних значень. На відміну від середнього, яке сумує всі значення, медіана враховує лише позицію. Наприклад, для зарплат компанії з кількома високооплачуваними керівниками медіана дає кращу репрезентацію типової зарплати, ніж середнє.
2Що таке дисперсія набору даних?
Що таке дисперсія набору даних?
Відповідь
Дисперсія вимірює розкид даних навколо їхнього середнього значення. Вона обчислюється як середнє квадратів відхилень від середнього. Піднесення до квадрату дає завжди додатні значення і посилює вплив значень, далеких від середнього. Одиниця дисперсії — це квадрат одиниці оригінальних даних, тому ми часто використовуємо стандартне відхилення (квадратний корінь з дисперсії) для інтерпретації розкиду в оригінальній одиниці.
3Який зв'язок між стандартним відхиленням і дисперсією?
Який зв'язок між стандартним відхиленням і дисперсією?
Відповідь
Стандартне відхилення — це квадратний корінь з дисперсії. Це перетворення повертає міру розкиду до оригінальної одиниці даних, спрощуючи інтерпретацію. Наприклад, якщо дані в євро, дисперсія буде в євро в квадраті (важко інтерпретувати), а стандартне відхилення — в євро. Тому стандартне відхилення є кращим для інтуїтивної передачі розкиду даних.
Що представляє перший квартиль (Q1) розподілу?
Як інтерпретувати коефіцієнт кореляції Пірсона, що дорівнює -0.85?
+17 питань зі співбесід
Інші теми співбесід Data Science & ML
Основи Python
Об'єктно-орієнтоване програмування Python
Структури даних Python
Основи Git
Основи SQL
Основи NumPy
Основи Pandas
Jupyter & Google Colab
SQL Joins та розширені запити
Просунутий Pandas
Візуалізація з Matplotlib & Seaborn
Інтерактивні візуалізації з Plotly
Інференційна статистика
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Кероване ML: Регресія
Кероване ML: Класифікація
Дерева рішень та ансамблі
Некероване ML
ML Pipelines та валідація
Часові ряди та прогнозування
Основи Deep Learning
TensorFlow & Keras
CNN та класифікація зображень
RNN та послідовності
Transformers та Attention
NLP та Hugging Face
GenAI та LangChain
MLOps та розгортання
Опануй Data Science & ML для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно