
Data Cleaning - Czyszczenie danych
Brakujące wartości, duplikaty, outliery, reguły biznesowe, transformacja, jakość danych
1Czym jest brakująca wartość (missing value) w zbiorze danych?
Czym jest brakująca wartość (missing value) w zbiorze danych?
Odpowiedź
Brakująca wartość reprezentuje nieobecne lub niewypełnione dane w polu. Może pojawiać się jako pusta komórka, NULL w bazie danych lub NaN w DataFrame. Identyfikacja brakujących wartości to pierwszy krok czyszczenia danych, ponieważ mogą one zniekształcać analizy statystyczne i agregacje.
2Jaka jest różnica między wartością NULL a pustym ciągiem znaków w bazie danych?
Jaka jest różnica między wartością NULL a pustym ciągiem znaków w bazie danych?
Odpowiedź
NULL oznacza, że wartość jest nieznana lub nie istnieje, podczas gdy pusty ciąg znaków to znana wartość, która jest pusta. To rozróżnienie jest fundamentalne w SQL, ponieważ NULL nie można porównywać operatorem = (trzeba użyć IS NULL), natomiast pusty ciąg można porównywać normalnie z = ''.
3Czym jest duplikat w zbiorze danych?
Czym jest duplikat w zbiorze danych?
Odpowiedź
Duplikat to rekord, który pojawia się więcej niż raz w zbiorze danych, dokładnie (wszystkie kolumny identyczne) lub częściowo (niektóre kolumny kluczowe identyczne). Duplikaty zniekształcają liczenia, sumy i średnie. Ich wykrywanie zwykle polega na identyfikacji kolumn kluczowych, które powinny być unikalne.
Jaka technika pozwala wykrywać dokładne duplikaty w SQL?
Czym jest outlier (wartość odstająca) w zbiorze danych?
+17 pytań z rozmów
Inne tematy rekrutacyjne Data Analytics
Google Sheets - Podstawy
Google Sheets - Zaawansowane formuły
SQL - Podstawy
SQL - Agregacje i grupowanie
SQL - Złączenia
BigQuery - Podstawy
KPI i metryki biznesowe
Statystyka opisowa
Zapier i automatyzacja No-Code
Zasady wizualizacji danych
Python & Pandas - Podstawy
Google Sheets - Automatyczne dashboardy
SQL - Podzapytania i CTE
SQL - Window Functions
BigQuery - Funkcje zaawansowane
Data Modeling
Analiza funneli i konwersji
Analiza kohort i retencji
Google Tag Manager i tracking
API i webhooki
dbt - Podstawy
AB Testing i statystyka stosowana
Looker Studio (Google Data Studio)
Power BI - Podstawy
SQL - Zaawansowane zapytania analityczne
dbt - Funkcje zaawansowane
Power BI - DAX i zaawansowane dashboardy
Python Analytics - Zaawansowana analiza i ML
Opanuj Data Analytics na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo