Топ 25 питань на співбесіді з Data Science у 2026 році

Data Science залишається однією з найбільш затребуваних спеціальностей на ринку праці у 2026 році. Незважаючи на зростання автоматизованих ML-платформ, роботодавці очікують від кандидатів глибокого розуміння статистики, машинного навчання та інженерії даних. Ця стаття охоплює 25 питань, які найчастіше виникають під час технічних співбесід, із детальними поясненнями та практичними прикладами коду.

Перед співбесідою рекомендується переглянути не лише теоретичні визначення, а й вміти пояснити кожну концепцію через конкретний приклад із власного досвіду або навчального проєкту. Інтерв'юери 2026 року цінують практичне мислення більше за завчені формули.

1. Яка різниця між дисперсією та зміщенням моделі?

Зміщення (bias) — це систематична помилка моделі, яка виникає через надмірне спрощення задачі. Дисперсія (variance) — це чутливість моделі до коливань у навчальних даних. Компроміс між ними відомий як bias-variance tradeoff: зменшення зміщення зазвичай збільшує дисперсію, і навпаки.

Модель із високим зміщенням недонавчається (underfitting) — наприклад, лінійна регресія на нелінійних даних. Модель із високою дисперсією перенавчається (overfitting) — наприклад, глибоке дерево рішень без обрізки. Оптимальна модель знаходить баланс між цими двома крайнощами через регуляризацію, крос-валідацію та підбір гіперпараметрів.

2. Що таке p-value і як його правильно інтерпретувати?

P-value — це ймовірність отримати результат, настільки ж екстремальний або більш екстремальний, ніж спостережуваний, за умови, що нульова гіпотеза є істинною. Поширена помилка — вважати p-value ймовірністю того, що нульова гіпотеза є правильною.

Пороговий рівень значущості α = 0.05 є умовністю: якщо p < 0.05, результат вважається статистично значущим, але це не означає практичної значущості. Великі вибірки можуть давати дуже малі p-values навіть для тривіально малих ефектів.

python

# binomial_test.py
from scipy import stats

# Two-sided binomial test: is the coin fair?
result = stats.binomtest(k=8, n=10, p=0.5, alternative='two-sided')
print(f"p-value: {result.pvalue:.4f}")  # 0.1094 (two-sided)
print(f"Reject H0 at alpha=0.05? {result.pvalue < 0.05}")  # False

У прикладі вище монета випала решкою 8 разів із 10. P-value дорівнює 0.1094, що не дозволяє відхилити нульову гіпотезу про чесну монету на рівні α = 0.05.

3. Чим відрізняється байєсівський підхід від частотного?

Частотна статистика розглядає параметри як фіксовані невідомі величини та будує висновки виключно на основі спостережуваних даних. Байєсівський підхід додає апріорні переконання (prior) і оновлює їх через теорему Байєса для отримання апостеріорного розподілу (posterior).

На практиці байєсівські методи дають ймовірнісні інтервали (credible intervals), які інтуїтивно простіше інтерпретувати: «із 95% ймовірністю параметр знаходиться в цьому діапазоні». Частотні довірчі інтервали мають інше, більш технічне трактування.

python

# bayesian_vs_frequentist.py
import numpy as np
from scipy import stats

# Frequentist: confidence interval for a mean
data = np.array([23.1, 25.4, 22.8, 24.9, 23.7, 25.1, 24.3])
ci = stats.t.interval(0.95, df=len(data)-1, loc=np.mean(data), scale=stats.sem(data))
print(f"95% CI (frequentist): [{ci[0]:.2f}, {ci[1]:.2f}]")

# Bayesian: posterior with conjugate prior (Normal-Normal)
prior_mean, prior_var = 24.0, 4.0  # prior belief
data_mean, data_var = np.mean(data), np.var(data, ddof=1) / len(data)
# Posterior parameters (conjugate update)
post_var = 1 / (1/prior_var + 1/data_var)
post_mean = post_var * (prior_mean/prior_var + data_mean/data_var)
post_ci = stats.norm.interval(0.95, loc=post_mean, scale=np.sqrt(post_var))
print(f"95% credible interval (Bayesian): [{post_ci[0]:.2f}, {post_ci[1]:.2f}]")

4. Які стратегії застосовуються для обробки відсутніх даних?

Відсутні дані поділяються на три типи: MCAR (Missing Completely At Random), MAR (Missing At Random) та MNAR (Missing Not At Random). Вибір стратегії залежить від типу відсутності та частки пропусків.

Просте видалення рядків виправдане лише при MCAR і малій частці пропусків. Заповнення середнім чи медіаною спотворює розподіл. Більш просунуті методи — KNN-imputation та ітеративна імпутація (MICE) — краще зберігають структуру даних.

python

# missing_data_strategies.py
import pandas as pd
from sklearn.impute import KNNImputer, SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

df = pd.DataFrame({
    'age': [25, 30, None, 45, None, 38],
    'income': [50000, None, 70000, 90000, 60000, None],
    'score': [85, 90, 78, None, 88, 92]
})

# Strategy 1: KNN imputation (preserves local structure)
knn_imp = KNNImputer(n_neighbors=2)
df_knn = pd.DataFrame(knn_imp.fit_transform(df), columns=df.columns)

# Strategy 2: Iterative imputation (MICE-like, models each feature)
iter_imp = IterativeImputer(max_iter=10, random_state=42)
df_iter = pd.DataFrame(iter_imp.fit_transform(df), columns=df.columns)

# Strategy 3: Add missingness indicator (preserves signal in the pattern)
df['income_missing'] = df['income'].isna().astype(int)
print(df_knn.round(1))

Додавання бінарного індикатора відсутності (income_missing) є корисним прийомом, коли сам факт пропуску несе інформацію — наприклад, у медичних даних відсутність результату аналізу може бути клінічно значущою.

5. Як правильно кодувати категоріальні змінні з великою кількістю категорій?

One-hot encoding створює занадто велику розмірність при сотнях категорій. Target encoding є ефективнішою альтернативою, однак без захисту від витоку даних призводить до переоптимізації.

Рішення — target encoding із K-fold регуляризацією: кожен фолд отримує середнє цільової змінної, обчислене лише на тренувальних фолдах.

python

# target_encoding.py
import pandas as pd
import numpy as np
from sklearn.model_selection import KFold

def target_encode_kfold(df, col, target, n_splits=5):
    """Target encoding with K-fold regularization to prevent leakage."""
    encoded = pd.Series(index=df.index, dtype=float)
    global_mean = df[target].mean()
    kf = KFold(n_splits=n_splits, shuffle=True, random_state=42)

    for train_idx, val_idx in kf.split(df):
        # Compute means only from training fold
        means = df.iloc[train_idx].groupby(col)[target].mean()
        encoded.iloc[val_idx] = df.iloc[val_idx][col].map(means)

    # Fill categories unseen in training fold with global mean
    encoded.fillna(global_mean, inplace=True)
    return encoded

df = pd.DataFrame({
    'city': ['Paris', 'Lyon', 'Paris', 'Marseille', 'Lyon', 'Paris',
             'Marseille', 'Lyon', 'Paris', 'Marseille'],
    'hired': [1, 0, 1, 0, 1, 1, 0, 0, 1, 1]
})
df['city_encoded'] = target_encode_kfold(df, 'city', 'hired')
print(df[['city', 'city_encoded', 'hired']])

6. Які метрики використовуються при дисбалансі класів?

Точність (accuracy) є оманливою метрикою при сильному дисбалансі: модель, яка завжди передбачає мажоритарний клас, досягає 95% точності на датасеті з розподілом 95/5. Доречнішими метриками є:

Precision та Recall — важливі, коли ціна хибнопозитивних або хибнонегативних результатів висока
F1-score — гармонічне середнє precision і recall
ROC AUC — стійка до порогу метрика, але оптимістична при великому дисбалансі
AUPRC (Average Precision) — площа під кривою Precision-Recall, найчутливіша при значному дисбалансі

python

# imbalanced_metrics.py
from sklearn.metrics import (
    classification_report, precision_recall_curve,
    average_precision_score, roc_auc_score
)
import numpy as np

# Simulated predictions on imbalanced data
np.random.seed(42)
y_true = np.array([0]*950 + [1]*50)  # 95/5 imbalance
y_scores = np.random.beta(2, 5, 1000)  # predicted probabilities
y_scores[y_true == 1] += 0.3  # positive class scores slightly higher
y_scores = np.clip(y_scores, 0, 1)
y_pred = (y_scores > 0.5).astype(int)

print(classification_report(y_true, y_pred, digits=3))
print(f"ROC AUC: {roc_auc_score(y_true, y_scores):.3f}")
print(f"Average Precision (AUPRC): {average_precision_score(y_true, y_scores):.3f}")

7. Що таке витік даних (data leakage) і як його уникнути?

Витік даних відбувається, коли інформація з тестової вибірки потрапляє у процес навчання моделі. Це призводить до оптимістично завищених результатів на валідації, які не відтворюються у продакшені.

Найпоширеніші форми витоку: масштабування всього датасету до розбивки на фолди, включення ознак, що залежать від цільової змінної (future leakage), та неправильна обробка часових рядів без урахування часової послідовності.

python

# leakage_prevention.py
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import cross_val_score
import numpy as np

X = np.random.randn(1000, 10)
y = (X[:, 0] + X[:, 1] > 0).astype(int)

# WRONG: fit scaler on all data, then cross-validate
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)  # leakage: test fold info in scaling

# CORRECT: pipeline ensures preprocessing fits only on training folds
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler()),
    ('model', GradientBoostingClassifier(n_estimators=100, random_state=42))
])
scores = cross_val_score(pipeline, X, y, cv=5, scoring='roc_auc')
print(f"AUC (no leakage): {scores.mean():.3f} +/- {scores.std():.3f}")

Використання sklearn.pipeline.Pipeline є найнадійнішим способом запобігти витоку: трансформери автоматично навчаються лише на тренувальній частині кожного фолду.

8. Як працює механізм самоуваги (self-attention) у трансформерах?

Самоувага дозволяє кожному токену в послідовності зважено звертатися до всіх інших токенів. Для кожного токена обчислюються три вектори: Query (Q), Key (K) та Value (V). Оцінка уваги між токенами — це скалярний добуток Q та K, нормалізований на sqrt(d_k), після чого застосовується softmax.

python

# self_attention.py
import torch
import torch.nn.functional as F

def self_attention(x, d_k):
    """Scaled dot-product self-attention from scratch."""
    # x shape: (batch_size, seq_len, d_model)
    batch_size, seq_len, d_model = x.shape

    # Linear projections for Q, K, V
    W_q = torch.randn(d_model, d_k) * 0.1
    W_k = torch.randn(d_model, d_k) * 0.1
    W_v = torch.randn(d_model, d_k) * 0.1

    Q = x @ W_q  # (batch, seq_len, d_k)
    K = x @ W_k
    V = x @ W_v

    # Scaled dot-product attention
    scores = Q @ K.transpose(-2, -1) / (d_k ** 0.5)  # (batch, seq_len, seq_len)
    weights = F.softmax(scores, dim=-1)  # attention weights
    output = weights @ V  # (batch, seq_len, d_k)

    return output, weights

# Example: 1 batch, 4 tokens, 8-dim embeddings
x = torch.randn(1, 4, 8)
out, attn = self_attention(x, d_k=8)
print(f"Output shape: {out.shape}")    # (1, 4, 8)
print(f"Attention weights:\n{attn[0].detach().numpy().round(3)}")

Матриця уваги показує, наскільки сильно кожен токен «звертає увагу» на інші. У реальних трансформерах використовується multi-head attention — паралельне застосування кількох механізмів самоуваги для захоплення різних типів залежностей.

9. Як знайти другу за величиною зарплату в SQL?

Це класичне питання, яке перевіряє знання вкладених підзапитів та агрегацій. Один із найчистіших підходів — корельований підзапит, що підраховує кількість унікальних зарплат, вищих за поточну.

sql

-- second_highest_salary.sql
-- Approach: correlated subquery counting distinct higher salaries
SELECT d.department_name, e.employee_name, e.salary
FROM employees e
JOIN departments d ON e.department_id = d.id
WHERE (
    SELECT COUNT(DISTINCT e2.salary)
    FROM employees e2
    WHERE e2.department_id = e.department_id
      AND e2.salary > e.salary
) = 1
ORDER BY d.department_name;

Цей підхід є узагальненим: замінивши = 1 на = N-1, можна знайти N-у за величиною зарплату. Альтернатива — використання віконної функції DENSE_RANK(), яку підтримують усі сучасні СУБД.

10. Яка різниця між map, apply та transform у Pandas?

Ці три методи часто плутають, хоча вони мають різне призначення:

map — поелементне перетворення Series через словник або функцію
apply — застосовує довільну функцію до кожного рядка або стовпця DataFrame
transform — застосовує агрегацію в межах груп, але повертає результат тієї ж форми, що й вхідний DataFrame (broadcasting)

python

# pandas_operations.py
import pandas as pd

df = pd.DataFrame({
    'team': ['A', 'A', 'B', 'B', 'A'],
    'score': [10, 20, 30, 40, 50]
})

# map: element-wise on Series
df['team_upper'] = df['team'].map({'A': 'Alpha', 'B': 'Beta'})

# apply: arbitrary function per row
df['score_label'] = df['score'].apply(lambda x: 'high' if x > 25 else 'low')

# transform: group-level, same shape output (broadcasts back)
df['team_mean'] = df.groupby('team')['score'].transform('mean')
df['score_normalized'] = df.groupby('team')['score'].transform(
    lambda x: (x - x.mean()) / x.std()
)
print(df)

transform є особливо корисним для нормалізації в межах груп та додавання групових агрегатів як нових стовпців без злиття DataFrames.

11. Що таке SHAP і як він пояснює важливість ознак?

SHAP (SHapley Additive exPlanations) — метод інтерпретації ML-моделей, заснований на теорії ігор Шеплі. Для кожного спостереження SHAP обчислює внесок кожної ознаки у відхилення передбачення від середнього по датасету.

python

# feature_importance_shap.py
import shap
import xgboost as xgb
from sklearn.datasets import make_classification

# Generate synthetic dataset
X, y = make_classification(n_samples=1000, n_features=10,
                           n_informative=5, random_state=42)

# Train XGBoost model
model = xgb.XGBClassifier(n_estimators=100, random_state=42, eval_metric='logloss')
model.fit(X, y)

# SHAP explanation
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X)

# Global importance: mean absolute SHAP value per feature
import numpy as np
importance = np.abs(shap_values).mean(axis=0)
for i in np.argsort(importance)[::-1]:
    print(f"Feature {i}: {importance[i]:.4f}")

На відміну від вбудованої важливості ознак у деревних моделях, SHAP є узгодженим (consistent): якщо модель більше залежить від ознаки, її SHAP-значення завжди зростає. Це робить SHAP золотим стандартом для пояснення моделей у 2026 році.

12. Що таке регуляризація L1 та L2 і чим вони відрізняються?

Обидва методи додають штрафний член до функції втрат для запобігання перенавчанню. L2 (Ridge) додає суму квадратів ваг — це рівномірно зменшує всі ваги, але не обнуляє їх. L1 (Lasso) додає суму абсолютних значень ваг — це призводить до розрідженого (sparse) рішення, де частина ваг стає точно нульовою.

Elastic Net поєднує обидва підходи. L1 підходить для відбору ознак при великій кількості ірелевантних змінних. L2 краще при корельованих ознаках. Параметр регуляризації λ підбирається через крос-валідацію.

13. Як функціонує алгоритм градієнтного бустингу?

Градієнтний бустинг будує ансамбль слабких моделей (зазвичай дерев рішень) послідовно. Кожна нова модель навчається передбачати залишкові помилки (псевдо-залишки — від'ємний градієнт функції втрат) попередньої. XGBoost, LightGBM та CatBoost є найпопулярнішими реалізаціями у 2026 році.

Ключові гіперпараметри: кількість дерев (n_estimators), швидкість навчання (learning_rate), максимальна глибина дерева (max_depth) та частка підвибірки (subsample). Менша швидкість навчання вимагає більше дерев, але зазвичай дає кращі результати при правильному підборі.

14. Чим відрізняється Random Forest від Gradient Boosting?

Random Forest будує дерева паралельно та незалежно, використовуючи бегінг (bootstrap aggregating) та випадковий підпростір ознак. Це зменшує дисперсію. Gradient Boosting будує дерева послідовно, кожне — для корекції помилок попереднього, зменшуючи зміщення.

Random Forest стійкіший до гіперпараметрів і рідше перенавчається. Gradient Boosting потенційно точніший, але вимагає ретельнішого тюнінгу. На практиці LightGBM часто перевершує Random Forest на табличних даних при правильному підборі параметрів.

15. Що таке крос-валідація і які є її різновиди?

Крос-валідація — метод оцінки узагальнення моделі, що дозволяє уникнути переоптимізації під конкретний розподіл тренувальних/тестових даних. Основні типи:

K-Fold: датасет ділиться на K частин; K-1 частин використовуються для навчання, одна — для валідації (K ітерацій)
Stratified K-Fold: зберігає розподіл класів у кожному фолді (важливо при дисбалансі)
Time Series Split: для часових рядів — навчання завжди передує валідації в часі
Leave-One-Out (LOO): K = N, максимальне використання даних, але обчислювально дороге

16. Як детектувати та обробляти викиди (outliers)?

Методи виявлення викидів поділяються на статистичні та засновані на моделях. Z-score визначає спостереження, що відхиляються більш ніж на 3 стандартні відхилення від середнього. IQR-метод використовує міжквартильний розмах. Для багатовимірних даних застосовуються Isolation Forest, Local Outlier Factor (LOF) та One-Class SVM.

Обробка залежить від природи викиду: помилка вимірювання — видалення або виправлення; справжній екстремальний випадок — збереження або вінсоризація (обмеження до певного персентиля). Видалення без аналізу природи викиду є методологічною помилкою.

17. Що таке принципальний аналіз компонентів (PCA)?

PCA — метод зниження розмірності, що знаходить ортогональні напрямки максимальної дисперсії у даних (головні компоненти). Перша компонента пояснює найбільшу частку дисперсії, кожна наступна — найбільшу з решти.

Математично PCA еквівалентно SVD (сингулярному розкладу) матриці даних. Перед застосуванням PCA дані обов'язково стандартизуються. Число компонентів обирається через «зламний» критерій на графіку дисперсії або через накопичену частку поясненої дисперсії (наприклад, 95%).

18. Що таке A/B тестування і які типові помилки при його проведенні?

A/B тестування — контрольований експеримент для порівняння двох варіантів (контроль та варіант) за певною метрикою. Ключові умови: рандомізація розподілу користувачів, визначення розміру вибірки до початку (sample size calculation), фіксований горизонт тесту.

Поширені помилки: раннє зупинення при досягненні значущості (peeking problem), множинне тестування без корекції (FWER/FDR), ефект новизни (novelty effect), відсутність перевірки SRM (Sample Ratio Mismatch). Sequential testing та байєсівські методи тестування допомагають уникнути частини цих проблем.

19. Як функціонують рекомендаційні системи?

Два основних підходи: колаборативна фільтрація (collaborative filtering) та контентна фільтрація (content-based filtering). Колаборативна фільтрація спирається на поведінку схожих користувачів або подібних об'єктів. Контентна — на ознаки самих об'єктів.

Matrix Factorization (SVD, ALS) є класичним підходом для колаборативної фільтрації: рейтингова матриця розкладається на латентні представлення користувачів та об'єктів. Сучасні системи використовують двовежеві (two-tower) нейромережі та трансформерні архітектури для генерації ембедингів.

20. Що таке концептуальний зсув (concept drift) і як з ним боротися?

Концептуальний зсув — зміна статистичних властивостей цільової змінної або зв'язку між ознаками та ціллю з часом. Наприклад, поведінка користувачів після економічної кризи кардинально відрізняється від попередніх патернів.

Моніторинг дрейфу включає відстеження розподілу вхідних даних (PSI — Population Stability Index), метрик моделі на свіжих даних та статистичних тестів (Kolmogorov-Smirnov, Chi-square). Стратегії протидії: перепідготовка за розкладом, перепідготовка при виявленні дрейфу, ансамблювання з вагами, що залежать від часу.

21. Яка різниця між параметричними та непараметричними методами?

Параметричні методи роблять припущення про форму розподілу даних (наприклад, нормальність). Лінійна регресія, логістична регресія, LDA — параметричні методи. Вони ефективні при виконанні припущень і вимагають менше даних.

Непараметричні методи (k-NN, дерева рішень, метод ядер) не припускають конкретної форми розподілу. Вони гнучкіші, але потребують більше даних та обчислювальних ресурсів. Тести Манна-Уітні, Краскела-Уолліса — непараметричні аналоги t-тесту та ANOVA відповідно.

22. Що таке нейронні мережі та як відбувається зворотне поширення помилки?

Нейронна мережа — ієрархічна система нелінійних трансформацій, де кожен шар навчається представленням зростаючої абстракції. Зворотне поширення (backpropagation) — алгоритм обчислення градієнтів функції втрат відносно параметрів мережі через застосування ланцюгового правила диференціювання.

Градієнт поширюється від вихідного шару до вхідного. Проблема зникаючого градієнта (vanishing gradient) виникає у глибоких мережах із сигмоїдними активаціями — градієнти стають мізерними в ранніх шарах. ReLU та його варіанти (Leaky ReLU, GELU) вирішують цю проблему.

23. Як обирати між різними алгоритмами ML для нової задачі?

Вибір алгоритму залежить від кількох факторів: розміру та структури даних, типу задачі (класифікація, регресія, кластеризація), вимог до інтерпретованості, часових та обчислювальних обмежень.

Практична евристика для табличних даних: починати з градієнтного бустингу (LightGBM) як сильного базового рішення. Для інтерпретованості — лінійні моделі або невеликі дерева рішень. Для неструктурованих даних (текст, зображення) — трансформери та CNN відповідно. Теорема No Free Lunch нагадує: жоден алгоритм не перевершує інші на всіх задачах.

24. Що таке векторні бази даних і навіщо вони потрібні?

Векторні бази даних (Pinecone, Weaviate, Qdrant, pgvector) зберігають та індексують щільні вектори (ембединги) для ефективного пошуку найближчих сусідів (ANN — Approximate Nearest Neighbor). Це критично для RAG-систем (Retrieval-Augmented Generation), семантичного пошуку та рекомендаційних систем.

Алгоритми індексації: HNSW (Hierarchical Navigable Small World) забезпечує субмілісекундний пошук серед мільярдів векторів із компромісом між точністю та швидкістю. IVF (Inverted File Index) із Product Quantization дозволяє стискати вектори для зменшення обсягу пам'яті.

25. Що таке MLOps і з яких компонентів він складається?

MLOps — набір практик для надійного та масштабованого розгортання ML-моделей у продакшені. Охоплює весь цикл: від підготовки даних до моніторингу розгорнутих моделей.

Ключові компоненти: відстеження експериментів (MLflow, W&B), версіонування даних та моделей (DVC, MLflow Model Registry), CI/CD для ML-пайплайнів, Feature Store (Feast, Tecton) для централізованого управління ознаками, моніторинг моделей у продакшені (Evidently AI, Arize). Платформи Vertex AI, SageMaker та Azure ML інтегрують ці компоненти в єдиний робочий процес, скорочуючи час від прототипу до продакшену.

Готовий до співбесід з Data Science & ML?

Практикуйся з нашими інтерактивними симуляторами, flashcards та технічними тестами.

Відкрий Data Science & ML

Підсумок

Підготовка до технічної співбесіди з Data Science у 2026 році вимагає балансу між фундаментальними знаннями та практичними навичками. Статистичне мислення, розуміння компромісів між алгоритмами, захист від витоку даних та вміння інтерпретувати моделі — це ті компетенції, які відрізняють сильного кандидата від посереднього.

Роботодавці все частіше перевіряють не лише здатність реалізувати алгоритм, а й розуміння того, коли і чому його застосовувати, а також вміння комунікувати технічні рішення нетехнічній аудиторії. Регулярна практика на реальних датасетах, участь у змаганнях (Kaggle) та побудова власного портфоліо проєктів залишаються найефективнішими способами підготовки.

1. Яка різниця між дисперсією та зміщенням моделі?

2. Що таке p-value і як його правильно інтерпретувати?

3. Чим відрізняється байєсівський підхід від частотного?

4. Які стратегії застосовуються для обробки відсутніх даних?

5. Як правильно кодувати категоріальні змінні з великою кількістю категорій?

6. Які метрики використовуються при дисбалансі класів?

7. Що таке витік даних (data leakage) і як його уникнути?

8. Як працює механізм самоуваги (self-attention) у трансформерах?

9. Як знайти другу за величиною зарплату в SQL?

10. Яка різниця між map, apply та transform у Pandas?

11. Що таке SHAP і як він пояснює важливість ознак?

12. Що таке регуляризація L1 та L2 і чим вони відрізняються?

13. Як функціонує алгоритм градієнтного бустингу?

14. Чим відрізняється Random Forest від Gradient Boosting?

15. Що таке крос-валідація і які є її різновиди?

16. Як детектувати та обробляти викиди (outliers)?

17. Що таке принципальний аналіз компонентів (PCA)?

18. Що таке A/B тестування і які типові помилки при його проведенні?

19. Як функціонують рекомендаційні системи?

20. Що таке концептуальний зсув (concept drift) і як з ним боротися?

21. Яка різниця між параметричними та непараметричними методами?

22. Що таке нейронні мережі та як відбувається зворотне поширення помилки?

23. Як обирати між різними алгоритмами ML для нової задачі?

24. Що таке векторні бази даних і навіщо вони потрібні?

25. Що таке MLOps і з яких компонентів він складається?

Готовий до співбесід з Data Science & ML?

Підсумок

Пов'язані статті

Алгоритми машинного навчання: повний посібник для технічних співбесід

Python для Data Science: NumPy, Pandas та Scikit-Learn у 2026

Zapytannia na spivbesidi z Rust: Povnyi posibnyk 2026