
Data Cleaning - Очищення даних
Відсутні значення, дублікати, викиди, бізнес-правила, перетворення, якість даних
1Що таке відсутнє значення (missing value) у наборі даних?
Що таке відсутнє значення (missing value) у наборі даних?
Відповідь
Відсутнє значення представляє відсутні або незаповнені дані в полі. Воно може з'являтися як порожня комірка, NULL у базі даних або NaN у DataFrame. Виявлення відсутніх значень є першим кроком очищення даних, оскільки вони можуть спотворити статистичні аналізи та агрегації.
2Яка різниця між значенням NULL і порожнім рядком у базі даних?
Яка різниця між значенням NULL і порожнім рядком у базі даних?
Відповідь
NULL означає, що значення невідоме або не існує, тоді як порожній рядок — це відоме значення, яке виявилося порожнім. Це розрізнення є основоположним у SQL, оскільки NULL не можна порівнювати оператором = (треба використовувати IS NULL), а порожній рядок можна порівнювати нормально через = ''.
3Що таке дублікат у наборі даних?
Що таке дублікат у наборі даних?
Відповідь
Дублікат — це запис, який з'являється більше одного разу в наборі даних, або точно (усі стовпці ідентичні), або частково (деякі ключові стовпці ідентичні). Дублікати спотворюють підрахунки, суми та середні значення. Їх виявлення зазвичай ґрунтується на ідентифікації ключових стовпців, які повинні бути унікальними.
Яка техніка дозволяє виявляти точні дублікати в SQL?
Що таке outlier (викидове значення) у наборі даних?
+17 питань зі співбесід
Інші теми співбесід Data Analytics
Google Sheets - Основи
Google Sheets - Розширені формули
SQL - Основи
SQL - Агрегації та групування
SQL - З'єднання
BigQuery - Основи
KPI та бізнес-метрики
Описова статистика
Zapier та No-Code автоматизація
Принципи візуалізації даних
Python & Pandas - Основи
Google Sheets - Автоматизовані дашборди
SQL - Підзапити та CTE
SQL - Window Functions
BigQuery - Розширені можливості
Data Modeling
Аналіз воронок і конверсії
Аналіз когорт і утримання
Google Tag Manager та трекінг
API та вебхуки
dbt - Основи
AB Testing та прикладна статистика
Looker Studio (Google Data Studio)
Power BI - Основи
SQL - Розширені аналітичні запити
dbt - Розширені можливості
Power BI - DAX та просунуті дашборди
Python Analytics - Розширений аналіз та ML
Опануй Data Analytics для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно