
Data Cleaning - Datenbereinigung
Fehlende Werte, Duplikate, Ausreißer, Geschäftsregeln, Transformation, Datenqualität
1Was ist ein fehlender Wert (missing value) in einem Datensatz?
Was ist ein fehlender Wert (missing value) in einem Datensatz?
Antwort
Ein fehlender Wert stellt fehlende oder nicht ausgefüllte Daten in einem Feld dar. Er kann als leere Zelle, NULL in einer Datenbank oder NaN in einem DataFrame erscheinen. Die Identifizierung fehlender Werte ist der erste Schritt der Datenbereinigung, da sie statistische Analysen und Aggregationen verfälschen können.
2Was ist der Unterschied zwischen einem NULL-Wert und einer leeren Zeichenkette in einer Datenbank?
Was ist der Unterschied zwischen einem NULL-Wert und einer leeren Zeichenkette in einer Datenbank?
Antwort
NULL bedeutet, dass der Wert unbekannt ist oder nicht existiert, während eine leere Zeichenkette ein bekannter Wert ist, der zufällig leer ist. Diese Unterscheidung ist in SQL grundlegend, da NULL nicht mit dem Operator = verglichen werden kann (IS NULL muss verwendet werden), während eine leere Zeichenkette normal mit = '' verglichen werden kann.
3Was ist ein Duplikat in einem Datensatz?
Was ist ein Duplikat in einem Datensatz?
Antwort
Ein Duplikat ist ein Datensatz, der mehrmals in einem Datensatz erscheint, entweder exakt (alle Spalten identisch) oder teilweise (bestimmte Schlüsselspalten identisch). Duplikate verfälschen Zählungen, Summen und Mittelwerte. Ihre Erkennung beruht typischerweise auf der Identifizierung von Schlüsselspalten, die eindeutig sein sollten.
Welche Technik ermöglicht es, exakte Duplikate in SQL zu erkennen?
Was ist ein Ausreißer (outlier) in einem Datensatz?
+17 Interview-Fragen
Weitere Data Analytics-Interviewthemen
Google Sheets - Grundlagen
Google Sheets - Erweiterte Formeln
SQL - Grundlagen
SQL - Aggregationen und Gruppierungen
SQL - Joins
BigQuery - Grundlagen
KPIs und Business-Metriken
Deskriptive Statistik
Zapier und No-Code-Automatisierung
Grundlagen der Datenvisualisierung
Python & Pandas - Grundlagen
Google Sheets - Automatisierte Dashboards
SQL - Unterabfragen und CTEs
SQL - Window Functions
BigQuery - Erweiterte Funktionen
Data Modeling
Funnel- und Conversion-Analyse
Kohorten- und Retention-Analyse
Google Tag Manager und Tracking
APIs und Webhooks
dbt - Grundlagen
AB-Testing und angewandte Statistik
Looker Studio (Google Data Studio)
Power BI - Grundlagen
SQL - Erweiterte analytische Abfragen
dbt - Erweiterte Funktionen
Power BI - DAX und fortgeschrittene Dashboards
Python Analytics - Erweiterte Analyse und ML
Meistere Data Analytics für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten