
Feature Engineering
Категоріальне кодування, scaling, нормалізація, feature selection, створення feature, pipelines
1Який тип encoding використовувати для номінальної категоріальної змінної з невеликою кількістю різних категорій (менше 10)?
Який тип encoding використовувати для номінальної категоріальної змінної з невеликою кількістю різних категорій (менше 10)?
Відповідь
One-Hot Encoding ідеально підходить для номінальних змінних з невеликою кількістю категорій, оскільки створює бінарний стовпець для кожної категорії без введення штучного порядку. На відміну від Label Encoding, який присвоює числа (0, 1, 2...), One-Hot запобігає інтерпретації моделлю неіснуючого порядкового відношення між категоріями.
2У чому головна різниця між StandardScaler та MinMaxScaler?
У чому головна різниця між StandardScaler та MinMaxScaler?
Відповідь
StandardScaler центрує дані навколо 0 зі стандартним відхиленням 1 (z-score), а MinMaxScaler нормалізує дані в фіксованому діапазоні, зазвичай [0, 1]. StandardScaler менш чутливий до викидів, оскільки використовує середнє та стандартне відхилення, тоді як MinMaxScaler може сильно залежати від екстремальних значень.
3Який scaler слід обрати, коли дані містять значні викиди?
Який scaler слід обрати, коли дані містять значні викиди?
Відповідь
RobustScaler використовує медіану та інтерквартильний розмах (IQR) замість середнього та стандартного відхилення, що робить його стійким до викидів. Екстремальні значення не суттєво впливають на ці статистики, на відміну від StandardScaler чи MinMaxScaler, які можуть бути сильно зміщені викидами.
Що таке Label Encoding і коли його доречно використовувати?
Яку проблему може спричинити Target Encoding і як її уникнути?
+19 питань зі співбесід
Інші теми співбесід Data Science & ML
Основи Python
Об'єктно-орієнтоване програмування Python
Структури даних Python
Основи Git
Основи SQL
Основи NumPy
Основи Pandas
Jupyter & Google Colab
SQL Joins та розширені запити
Просунутий Pandas
Візуалізація з Matplotlib & Seaborn
Інтерактивні візуалізації з Plotly
Описова статистика
Інференційна статистика
Web Scraping
BigQuery & Cloud Data
Кероване ML: Регресія
Кероване ML: Класифікація
Дерева рішень та ансамблі
Некероване ML
ML Pipelines та валідація
Часові ряди та прогнозування
Основи Deep Learning
TensorFlow & Keras
CNN та класифікація зображень
RNN та послідовності
Transformers та Attention
NLP та Hugging Face
GenAI та LangChain
MLOps та розгортання
Опануй Data Science & ML для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно