Data Analytics

Data Cleaning - Datenbereinigung

Fehlende Werte, Duplikate, Ausreißer, Geschäftsregeln, Transformation, Datenqualität

20 Interview-Fragen·
Junior
1

Was ist ein fehlender Wert (missing value) in einem Datensatz?

Antwort

Ein fehlender Wert stellt fehlende oder nicht ausgefüllte Daten in einem Feld dar. Er kann als leere Zelle, NULL in einer Datenbank oder NaN in einem DataFrame erscheinen. Die Identifizierung fehlender Werte ist der erste Schritt der Datenbereinigung, da sie statistische Analysen und Aggregationen verfälschen können.

2

Was ist der Unterschied zwischen einem NULL-Wert und einer leeren Zeichenkette in einer Datenbank?

Antwort

NULL bedeutet, dass der Wert unbekannt ist oder nicht existiert, während eine leere Zeichenkette ein bekannter Wert ist, der zufällig leer ist. Diese Unterscheidung ist in SQL grundlegend, da NULL nicht mit dem Operator = verglichen werden kann (IS NULL muss verwendet werden), während eine leere Zeichenkette normal mit = '' verglichen werden kann.

3

Was ist ein Duplikat in einem Datensatz?

Antwort

Ein Duplikat ist ein Datensatz, der mehrmals in einem Datensatz erscheint, entweder exakt (alle Spalten identisch) oder teilweise (bestimmte Schlüsselspalten identisch). Duplikate verfälschen Zählungen, Summen und Mittelwerte. Ihre Erkennung beruht typischerweise auf der Identifizierung von Schlüsselspalten, die eindeutig sein sollten.

4

Welche Technik ermöglicht es, exakte Duplikate in SQL zu erkennen?

5

Was ist ein Ausreißer (outlier) in einem Datensatz?

+17 Interview-Fragen

Meistere Data Analytics für dein nächstes Interview

Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.

Kostenlos starten