Data Analytics

Data Cleaning - Czyszczenie danych

Brakujące wartości, duplikaty, outliery, reguły biznesowe, transformacja, jakość danych

20 pytań z rozmów·
Junior
1

Czym jest brakująca wartość (missing value) w zbiorze danych?

Odpowiedź

Brakująca wartość reprezentuje nieobecne lub niewypełnione dane w polu. Może pojawiać się jako pusta komórka, NULL w bazie danych lub NaN w DataFrame. Identyfikacja brakujących wartości to pierwszy krok czyszczenia danych, ponieważ mogą one zniekształcać analizy statystyczne i agregacje.

2

Jaka jest różnica między wartością NULL a pustym ciągiem znaków w bazie danych?

Odpowiedź

NULL oznacza, że wartość jest nieznana lub nie istnieje, podczas gdy pusty ciąg znaków to znana wartość, która jest pusta. To rozróżnienie jest fundamentalne w SQL, ponieważ NULL nie można porównywać operatorem = (trzeba użyć IS NULL), natomiast pusty ciąg można porównywać normalnie z = ''.

3

Czym jest duplikat w zbiorze danych?

Odpowiedź

Duplikat to rekord, który pojawia się więcej niż raz w zbiorze danych, dokładnie (wszystkie kolumny identyczne) lub częściowo (niektóre kolumny kluczowe identyczne). Duplikaty zniekształcają liczenia, sumy i średnie. Ich wykrywanie zwykle polega na identyfikacji kolumn kluczowych, które powinny być unikalne.

4

Jaka technika pozwala wykrywać dokładne duplikaty w SQL?

5

Czym jest outlier (wartość odstająca) w zbiorze danych?

+17 pytań z rozmów

Opanuj Data Analytics na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo