Question 1

Який тип encoding використовувати для номінальної категоріальної змінної з невеликою кількістю різних категорій (менше 10)?

Accepted Answer

One-Hot Encoding ідеально підходить для номінальних змінних з невеликою кількістю категорій, оскільки створює бінарний стовпець для кожної категорії без введення штучного порядку. На відміну від Label Encoding, який присвоює числа (0, 1, 2...), One-Hot запобігає інтерпретації моделлю неіснуючого порядкового відношення між категоріями.

Question 2

У чому головна різниця між StandardScaler та MinMaxScaler?

Accepted Answer

StandardScaler центрує дані навколо 0 зі стандартним відхиленням 1 (z-score), а MinMaxScaler нормалізує дані в фіксованому діапазоні, зазвичай [0, 1]. StandardScaler менш чутливий до викидів, оскільки використовує середнє та стандартне відхилення, тоді як MinMaxScaler може сильно залежати від екстремальних значень.

Question 3

Який scaler слід обрати, коли дані містять значні викиди?

Accepted Answer

RobustScaler використовує медіану та інтерквартильний розмах (IQR) замість середнього та стандартного відхилення, що робить його стійким до викидів. Екстремальні значення не суттєво впливають на ці статистики, на відміну від StandardScaler чи MinMaxScaler, які можуть бути сильно зміщені викидами.

Feature Engineering

Який тип encoding використовувати для номінальної категоріальної змінної з невеликою кількістю різних категорій (менше 10)?

Відповідь

У чому головна різниця між StandardScaler та MinMaxScaler?

Відповідь

Який scaler слід обрати, коли дані містять значні викиди?

Відповідь

Що таке Label Encoding і коли його доречно використовувати?

Яку проблему може спричинити Target Encoding і як її уникнути?

Інші теми співбесід Data Science & ML

Основи Python

Об'єктно-орієнтоване програмування Python

Структури даних Python

Основи Git

Основи SQL

Основи NumPy

Основи Pandas

Jupyter & Google Colab

SQL Joins та розширені запити

Просунутий Pandas

Візуалізація з Matplotlib & Seaborn

Інтерактивні візуалізації з Plotly

Описова статистика

Інференційна статистика

Web Scraping

BigQuery & Cloud Data

Кероване ML: Регресія

Кероване ML: Класифікація

Дерева рішень та ансамблі

Некероване ML

ML Pipelines та валідація

Часові ряди та прогнозування

Основи Deep Learning

TensorFlow & Keras

CNN та класифікація зображень

RNN та послідовності

Transformers та Attention

NLP та Hugging Face

GenAI та LangChain

MLOps та розгортання

Опануй Data Science & ML для наступної співбесіди