Vorstellungsgespräche im Bereich Data Analytics prüfen 2026 weit mehr als SQL-Syntax oder die Erstellung von Diagrammen. Einstellungsteams bewerten, ob Kandidaten aus unstrukturierten Datensätzen belastbare Erkenntnisse gewinnen, Ergebnisse an nicht-technische Stakeholder kommunizieren und jede Kennzahl mit einem konkreten Geschäftsergebnis verknüpfen können. Dieser Leitfaden behandelt die 25 Fragen, die in Interviews für Junior-, Mid-Level- und Senior-Data-Analyst-Positionen am häufigsten gestellt werden.

So wird dieser Leitfaden optimal genutzt

Jede Frage enthält eine prägnante Musterantwort und, wo sinnvoll, ausführbaren SQL- oder Python-Code. Es empfiehlt sich, die Abfragen zunächst eigenständig zu schreiben, bevor die Lösung gelesen wird. Interviewer legen mehr Wert auf den Denkprozess als auf eine auswendig gelernte Antwort.

SQL-Fragen für Data-Analyst-Interviews

SQL bleibt die am häufigsten geprüfte Kompetenz in Data-Analytics-Interviews. Jedes Unternehmen mit einer relationalen Datenbank erwartet von Analysten, dass sie Abfragen eigenständig formulieren.

1. Was ist der Unterschied zwischen WHERE und HAVING?

WHERE filtert Zeilen vor der Aggregation. HAVING filtert Gruppen nach der Aggregation. Die Verwechslung beider Klauseln gehört zu den häufigsten Fehlern in technischen Prüfungen.

sql

-- monthly_revenue.sql
SELECT
  DATE_TRUNC('month', order_date) AS month,
  SUM(amount)                     AS revenue
FROM orders
WHERE status = 'completed'          -- row-level filter
GROUP BY month
HAVING SUM(amount) > 10000;         -- group-level filter

WHERE reduziert den Datensatz, bevor die Datenbank-Engine das GROUP BY ausführt. HAVING operiert auf dem aggregierten Ergebnis. Die Verwendung von WHERE, wann immer möglich, verbessert die Abfrageleistung, da der Arbeitssatz früher im Ausführungsplan verkleinert wird.

2. Window Functions anhand eines praktischen Beispiels erklären

Window Functions berechnen einen Wert über eine Menge von Zeilen, die mit der aktuellen Zeile in Beziehung stehen, ohne das Ergebnis zu komprimieren. Sie sind unverzichtbar für Rankings, laufende Summen und Periodenvergleiche.

sql

-- user_ranking.sql
SELECT
  user_id,
  purchase_date,
  amount,
  ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY purchase_date) AS purchase_rank,
  SUM(amount)   OVER (PARTITION BY user_id ORDER BY purchase_date) AS running_total,
  LAG(amount)   OVER (PARTITION BY user_id ORDER BY purchase_date) AS prev_amount
FROM purchases;

ROW_NUMBER weist jedem Kauf eines Nutzers eine fortlaufende Rangnummer zu. SUM(...) OVER(...) berechnet eine laufende Summe ohne Self-Join. LAG greift auf den Wert der vorherigen Zeile zu, um einen direkten Vergleich zu ermöglichen. Interviewer fragen häufig nach der Berechnung des Monat-über-Monat-Wachstums mit genau diesem Muster.

3. Wie erkennt und entfernt man doppelte Datensätze?

Die Duplikaterkennung gehört zum Tagesgeschäft für Analysten, die mit Event-Logs, CRM-Exporten oder Drittanbieter-Datenfeeds arbeiten.

sql

-- deduplicate_events.sql
WITH ranked AS (
  SELECT *,
    ROW_NUMBER() OVER (
      PARTITION BY user_id, event_type, DATE_TRUNC('minute', created_at)
      ORDER BY created_at
    ) AS rn
  FROM events
)
SELECT * FROM ranked WHERE rn = 1;

Der CTE weist innerhalb jeder Duplikatgruppe eine Zeilennummer zu. Durch die Filterung auf rn = 1 wird nur das erste Vorkommen beibehalten. Dieser Ansatz bewahrt die Originaldaten und filtert gleichzeitig das Rauschen heraus.

4. Eine Abfrage zur Berechnung der Retention nach Wochenkohorte schreiben

Kohortenretention zählt zu den am häufigsten angeforderten Analysen in Produkt- und Growth-Teams. Das SQL-Muster folgt einer konsistenten Struktur über alle Datenbanken hinweg.

sql

-- weekly_cohort_retention.sql
WITH cohorts AS (
  SELECT
    user_id,
    DATE_TRUNC('week', MIN(event_date)) AS cohort_week
  FROM user_events
  GROUP BY user_id
),
activity AS (
  SELECT
    c.cohort_week,
    DATE_TRUNC('week', e.event_date) AS active_week,
    COUNT(DISTINCT e.user_id)        AS active_users
  FROM user_events e
  JOIN cohorts c ON c.user_id = e.user_id
  GROUP BY c.cohort_week, DATE_TRUNC('week', e.event_date)
)
SELECT
  cohort_week,
  EXTRACT(WEEK FROM active_week - cohort_week) AS weeks_since_signup,
  active_users
FROM activity
ORDER BY cohort_week, weeks_since_signup;

Der erste CTE identifiziert die Anmeldewoche jedes Nutzers. Der zweite CTE zählt die eindeutigen aktiven Nutzer pro Kohorte und Woche. Die finale Abfrage transformiert das Ergebnis in eine Retentionsmatrix. Interviewer erwarten, dass Kandidaten die geschäftliche Interpretation erklären können: Ein starker Abfall in Woche 1 deutet auf ein Onboarding-Problem hin, während eine flache Kurve ab Woche 4 auf eine stabile Kernnutzerbasis schließen lässt.

5. Was ist ein CTE, und wann sollte er eine Subquery ersetzen?

Ein Common Table Expression (CTE) ist eine benannte temporäre Ergebnismenge, die mit WITH definiert wird. CTEs verbessern die Lesbarkeit und ermöglichen rekursive Abfragen. Subqueries neigen dazu, tief verschachteltes SQL zu produzieren, das schwer zu debuggen ist. Ein CTE ist vorzuziehen, wenn dieselbe abgeleitete Tabelle mehrfach in der Abfrage referenziert wird oder wenn die Logik drei oder mehr Transformationsschritte umfasst.

Python-Fragen für Data-Analytics-Interviews

Python-Fragen konzentrieren sich auf Pandas, Datenbereinigungsworkflows und die Fähigkeit, Code in geschäftlichen Begriffen zu erklären. Interviewer erwarten pragmatische Lösungen, keine akademischen Abstraktionen.

6. Wie geht man mit fehlenden Werten in einem Pandas DataFrame um?

Fehlende Daten verfälschen Aggregationen und Modelleingaben. Der Ansatz hängt vom Spaltentyp und dem geschäftlichen Kontext ab.

python

# handle_missing.py
import pandas as pd
import numpy as np

df = pd.read_csv('sales.csv')

# Inspect the extent of missing data
print(df.isnull().sum())
print(df.isnull().mean().round(3))  # percentage per column

# Strategy 1: drop rows where critical columns are null
df_clean = df.dropna(subset=['customer_id', 'amount'])

# Strategy 2: fill numeric columns with median (robust to outliers)
df['amount'] = df['amount'].fillna(df['amount'].median())

# Strategy 3: fill categorical columns with the mode
df['region'] = df['region'].fillna(df['region'].mode()[0])

Das Entfernen von Zeilen ist sinnvoll, wenn die Fehlrate unter 5 % liegt und die Spalte geschäftskritisch ist. Die Median-Imputation ist robuster als der Mittelwert bei schiefen Verteilungen. Die Modus-Imputation eignet sich für kategorische Spalten mit einem dominanten Wert. Die Dokumentation der Imputationsstrategie ist entscheidend für die Nachvollziehbarkeit.

7. Merge, Join und Concatenate: Wann wird welche Methode verwendet?

Pandas bietet mehrere Methoden zur Kombination von DataFrames. Die Wahl hängt davon ab, ob die Operation zeilen- oder spaltenweise erfolgt und ob ein schlüsselbasierter Abgleich erforderlich ist.

python

# combine_dataframes.py
import pandas as pd

orders = pd.read_csv('orders.csv')
customers = pd.read_csv('customers.csv')

# Key-based merge (equivalent to SQL JOIN)
result = orders.merge(customers, on='customer_id', how='left')

# Stack rows from multiple sources
all_events = pd.concat([events_q1, events_q2], ignore_index=True)

# Add columns side-by-side (same row count required)
combined = pd.concat([features, labels], axis=1)

merge ist die richtige Wahl für schlüsselbasierte Verknüpfungen. concat mit dem Standard axis=0 stapelt Zeilen. concat mit axis=1 fügt Spalten nebeneinander hinzu. Die Verwendung von how='left' behält alle Zeilen des linken DataFrames bei, was einem SQL LEFT JOIN entspricht.

8. Verkaufsdaten gruppieren, aggregieren und transformieren

GroupBy-Operationen sind das Pandas-Äquivalent zu SQL GROUP BY. Dieses Muster erscheint in nahezu jeder Data-Analyst-Hausaufgabe.

python

# sales_analysis.py
import pandas as pd

df = pd.read_csv('transactions.csv', parse_dates=['date'])

# Monthly revenue by product category
monthly = (
    df.groupby([pd.Grouper(key='date', freq='M'), 'category'])
    .agg(revenue=('amount', 'sum'), orders=('order_id', 'nunique'))
    .reset_index()
)

# Add a column with each category's share of total monthly revenue
monthly['share'] = (
    monthly.groupby('date')['revenue']
    .transform(lambda x: x / x.sum())
    .round(4)
)

print(monthly.head(10))

agg mit benannter Aggregation hält die Ausgabe übersichtlich. transform überträgt eine Berechnung auf Gruppenebene zurück auf jede einzelne Zeile, wodurch ein separater Merge-Schritt entfällt. Diese Kombination deckt den Großteil der Ad-hoc-Reporting-Aufgaben ab.

9. Ausreißer in einem Datensatz erkennen und behandeln

Die Ausreißererkennung bestimmt, ob extreme Werte Dateneingabefehler, Betrugssignale oder echte Grenzfälle darstellen.

python

# detect_outliers.py
import pandas as pd
import numpy as np

df = pd.read_csv('transactions.csv')

# IQR method
Q1 = df['amount'].quantile(0.25)
Q3 = df['amount'].quantile(0.75)
IQR = Q3 - Q1
lower = Q1 - 1.5 * IQR
upper = Q3 + 1.5 * IQR

outliers = df[(df['amount'] < lower) | (df['amount'] > upper)]
print(f'Outliers found: {len(outliers)} ({len(outliers)/len(df)*100:.1f}%)')

# Cap instead of remove (winsorization)
df['amount_capped'] = df['amount'].clip(lower=lower, upper=upper)

Die IQR-Methode markiert Werte, die mehr als das 1,5-Fache des Interquartilsabstands vom Quartil entfernt liegen. Capping (Winsorisierung) bewahrt die Zeilenanzahl und begrenzt gleichzeitig den Einfluss extremer Werte. Das vollständige Entfernen ist nur dann angebracht, wenn Ausreißer eindeutige Fehler darstellen.

Bereit für deine Data Analytics-Interviews?

Übe mit unseren interaktiven Simulatoren, Flashcards und technischen Tests.

Data Analytics erkunden

Statistik- und Wahrscheinlichkeitsfragen

Statistische Kompetenz unterscheidet Analysten, die Zahlen berichten, von solchen, die sie korrekt interpretieren. Diese Fragen prüfen das grundlegende Verständnis.

10. Den p-Wert verständlich erklären

Ein p-Wert ist die Wahrscheinlichkeit, ein mindestens so extremes Ergebnis wie das gemessene zu beobachten, unter der Annahme, dass die Nullhypothese wahr ist. Ein p-Wert von 0,03 bedeutet nicht, dass die Nullhypothese mit 3 % Wahrscheinlichkeit wahr ist. Er bedeutet, dass bei Gültigkeit der Nullhypothese derart extreme Ergebnisse in 3 % der Fälle rein zufällig auftreten würden. Der Schwellenwert (Alpha) wird typischerweise auf 0,05 festgelegt, doch die Wahl hängt von den Kosten eines falsch-positiven Ergebnisses im jeweiligen geschäftlichen Kontext ab.

11. Wann sollte der Median statt des Mittelwerts verwendet werden?

Der Mittelwert reagiert empfindlich auf extreme Werte. Einkommensdaten, Transaktionsbeträge und Sitzungsdauern sind klassische Beispiele, bei denen der Median eine repräsentativere zentrale Tendenz liefert. Ein Datensatz mit einigen wenigen Großkundenaufträgen kann den Mittelwert weit über das hinaustreiben, was ein typischer Kunde erlebt. Die Angabe des Medians zusammen mit dem Mittelwert sowie der Standardabweichung gibt Stakeholdern ein vollständiges Bild.

12. Was ist der Unterschied zwischen Korrelation und Kausalität?

Korrelation misst die Stärke und Richtung eines linearen Zusammenhangs zwischen zwei Variablen. Kausalität bedeutet, dass eine Variable die andere direkt beeinflusst. Eisverkauf und Ertrinkungsunfälle korrelieren, weil beide im Sommer steigen -- nicht weil das eine das andere verursacht. Um Kausalität nachzuweisen, bedarf es eines kontrollierten Experiments (A/B-Test) oder eines fundierten kausalen Inferenz-Frameworks wie Difference-in-Differences oder Instrumentalvariablen.

13. Typ-I- und Typ-II-Fehler anhand eines Geschäftsbeispiels erklären

Ein Typ-I-Fehler (falsch-positiv) tritt auf, wenn ein Test die Nullhypothese fälschlicherweise verwirft. Beispiel: Die Schlussfolgerung, dass ein neuer Checkout-Flow die Conversion erhöht, obwohl in Wirklichkeit kein Effekt vorliegt -- was zu einer unnötigen Produktänderung führt. Ein Typ-II-Fehler (falsch-negativ) tritt auf, wenn ein Test einen tatsächlich vorhandenen Effekt nicht erkennt. Beispiel: Der alte Checkout-Flow wird beibehalten, weil der Test nicht genügend Stichprobengröße hatte, um einen echten Anstieg von 2 % zu erkennen. Eine größere Stichprobe reduziert Typ-II-Fehler. Die Senkung des Alpha-Schwellenwerts reduziert Typ-I-Fehler, erhöht aber Typ-II-Fehler.

Power BI und Datenvisualisierung

Visualisierungsfragen prüfen, ob ein Kandidat den richtigen Diagrammtyp wählen, wartbare Dashboards erstellen und Datengeschichten an nicht-technische Zielgruppen vermitteln kann.

14. Was ist DAX, und wie unterscheidet es sich von SQL?

DAX (Data Analysis Expressions) ist die Formelsprache in Power BI, Analysis Services und Excel Power Pivot. Im Gegensatz zu SQL, das auf Zeilenmengen operiert, arbeitet DAX innerhalb eines Filterkontexts, der sich dynamisch basierend auf Slicern, Filtern und Zeilenkontext ändert. Die CALCULATE-Funktion in DAX modifiziert den Filterkontext vor der Auswertung eines Ausdrucks -- ein Konzept, für das es kein direktes SQL-Äquivalent gibt.

15. Der Unterschied zwischen Import-Modus und DirectQuery

Der Import-Modus lädt Daten in die Power-BI-In-Memory-Engine (VertiPaq), was schnelle Abfrageleistung bietet, aber geplante Aktualisierungen erfordert. DirectQuery sendet Abfragen in Echtzeit an die Quelldatenbank, was Datenaktualität gewährleistet, aber von der Leistung des Quellsystems abhängt. 2026 führt Microsoft Fabric den Direct-Lake-Modus ein, der Parquet-Dateien aus OneLake liest, ohne zu importieren oder einen SQL-Endpunkt abzufragen -- eine Kombination aus der Geschwindigkeit des Import-Modus und nahezu Echtzeit-Aktualität.

16. Wann wird ein Balkendiagramm statt eines Liniendiagramms verwendet?

Balkendiagramme vergleichen diskrete Kategorien (Umsatz nach Region, Anzahl nach Produkt). Liniendiagramme zeigen Trends über kontinuierliche Intervalle (täglich aktive Nutzer, monatliche Abwanderungsrate). Ein Liniendiagramm für kategorische Daten suggeriert einen Trend zwischen unverbundenen Kategorien, was die Zielgruppe in die Irre führt. Eine häufige Interview-Anschlussfrage betrifft Kreisdiagramme: Sie sollten auf die Darstellung von Anteilen eines Ganzen beschränkt werden, wenn maximal fünf Segmente vorhanden sind, da das menschliche Auge Winkel nur schwer präzise vergleichen kann.

17. Wie wird ein langsamer Power-BI-Bericht optimiert?

Langsame Berichte resultieren typischerweise aus zu vielen Spalten im Datenmodell, komplexen DAX-Measures, die zeilenweise ausgewertet werden, oder Visuals, die Millionen von Zeilen abfragen. Die Optimierungs-Checkliste umfasst: Entfernung ungenutzter Spalten zur Verkleinerung des Modells, Ersetzung von Iterator-Funktionen (SUMX, FILTER) durch ihre Nicht-Iterator-Äquivalente, Begrenzung der Visuals pro Seite auf unter 15 sowie Verwendung von Aggregationstabellen für hochkardinalige Dimensionen. Der in Power BI Desktop integrierte Performance Analyzer zeigt präzise, welches Visual oder welche DAX-Abfrage den Engpass verursacht.

Verhaltensfragen und Fallstudien

Technische Fähigkeiten bringen Kandidaten ins Vorstellungsgespräch. Verhaltensfragen entscheiden, ob sie das Angebot erhalten. Jede Antwort sollte dem STAR-Framework folgen: Situation, Task (Aufgabe), Action (Handlung), Result (Ergebnis).

18. Eine Situation beschreiben, in der Datenanalyse eine Geschäftsentscheidung verändert hat

Starke Antworten beinhalten eine konkrete Kennzahl, die sich verändert hat, die verwendete Analysemethode und die Auswirkung in Euro oder Prozent. Schwache Antworten beschreiben ein Dashboard, ohne es mit einem Ergebnis zu verknüpfen. Beispielstruktur: "Eine Churn-Analyse eines SaaS-Produkts ergab, dass Nutzer, die das Onboarding nicht innerhalb von 48 Stunden abschlossen, eine um 60 % höhere Abwanderungsrate nach 30 Tagen aufwiesen. Das Produktteam implementierte eine automatisierte E-Mail-Sequenz, die nach 24 Stunden ausgelöst wurde, und reduzierte die 30-Tage-Abwanderung um 8 Prozentpunkte."

19. Wie mit widersprüchlichen Datenanfragen von Stakeholdern umgegangen wird

Diese Frage prüft Priorisierungs- und Kommunikationsfähigkeiten. Der empfohlene Ansatz: die geschäftliche Fragestellung hinter jeder Anfrage klären, gemeinsame Kennzahlen identifizieren, ein einzelnes Dashboard vorschlagen, das beide Anforderungen bedient, und Kompromisse transparent dokumentieren. Eine Absage an einen Stakeholder ist akzeptabel, wenn sie durch Data-Governance-Bedenken oder Ressourcenbeschränkungen begründet ist -- vorausgesetzt, es wird eine Alternative angeboten.

20. Eine komplexe Analyse für ein nicht-technisches Publikum erklären

Interviewer bitten Kandidaten häufig, ein Konzept wie Regression oder Kohortenanalyse so zu erklären, als würden sie mit einem Marketing-Manager sprechen. Die besten Antworten verwenden Analogien, vermeiden Fachbegriffe und verankern die Erklärung in einem geschäftlichen Ergebnis. "Die Kohortenanalyse gruppiert Kunden nach dem Monat ihrer Anmeldung und verfolgt, wie viele davon drei Monate später noch aktiv sind. Das Diagramm zeigt, dass Januar-Anmeldungen besser gehalten haben als Februar-Anmeldungen, was mit den Ende Dezember eingeführten Onboarding-Änderungen übereinstimmt."

STAR-Framework Referenz

Situation: den Kontext setzen. Task: das Ziel definieren. Action: die konkreten Schritte beschreiben. Result: die Auswirkung quantifizieren. Interviewer bewerten vage Antworten negativ, die den Result-Schritt auslassen.

Datenbereinigung und ETL im Interview

Datenqualitätsprobleme beanspruchen einen erheblichen Teil der Arbeitszeit eines Analysten. Diese Fragen prüfen praxisnahe Data-Wrangling-Fähigkeiten.

21. Wie werden Daten nach der Ausführung einer ETL-Pipeline validiert?

Validierungsprüfungen sollten Zeilenanzahlen (Quelle vs. Ziel), Null-Raten bei kritischen Spalten, referenzielle Integrität über Tabellen hinweg und Änderungen in der Werteverteilung (zur Erkennung stiller Schemaänderungen) abdecken. Automatisierte Prüfungen, die nach jeder Pipeline-Ausführung laufen, verhindern, dass fehlerhafte Daten in Dashboards gelangen.

python

# etl_validation.py
import pandas as pd

def validate_pipeline(source_df: pd.DataFrame, target_df: pd.DataFrame) -> dict:
    checks = {}
    # Row count match
    checks['row_count_match'] = len(source_df) == len(target_df)
    # Null rate on critical columns
    for col in ['user_id', 'event_date', 'amount']:
        null_rate = target_df[col].isnull().mean()
        checks[f'{col}_null_rate'] = round(null_rate, 4)
    # Revenue reconciliation
    source_total = source_df['amount'].sum()
    target_total = target_df['amount'].sum()
    checks['revenue_diff_pct'] = round(
        abs(source_total - target_total) / source_total * 100, 2
    )
    return checks

results = validate_pipeline(source, target)
for check, value in results.items():
    print(f'{check}: {value}')

Diese Funktion gibt ein Dictionary mit Validierungsergebnissen zurück, das in ein Alerting-System eingespeist werden kann. Eine Umsatzabweichung über 0,01 % sollte eine Untersuchung auslösen.

22. Was ist der Unterschied zwischen normalisierten und denormalisierten Daten?

Normalisierte Daten minimieren Redundanz, indem Informationen auf verknüpfte Tabellen aufgeteilt werden (3NF). Denormalisierte Daten kombinieren Tabellen zu breiteren, flacheren Strukturen, die für leseintensive analytische Abfragen optimiert sind. OLTP-Systeme bevorzugen Normalisierung für die Datenintegrität. Data Warehouses und BI-Tools bevorzugen Denormalisierung (Star-Schema, Snowflake-Schema) für die Abfragegeschwindigkeit. Das Verständnis dieses Kompromisses ist fundamental für die Gestaltung effizienter Datenpipelines.

Advanced-Analytics-Fragen

Seniorpositionen erfordern Vertrautheit mit Experimentation, Forecasting und bereichsübergreifender Datenstrategie.

23. Wie wird ein A/B-Test von Grund auf konzipiert?

Ein A/B-Test erfordert fünf Komponenten: eine klare Hypothese ("Die Änderung der CTA-Button-Farbe von Grau auf Grün erhöht die Klickrate um 5 %"), eine primäre Metrik (Klickrate), eine Stichprobengrößenberechnung basierend auf der erwarteten Effektstärke und gewünschten Teststärke (typischerweise 80 %), die zufällige Zuordnung von Nutzern zu Kontroll- und Testgruppen sowie eine vorab festgelegte Testdauer, die wöchentliche Saisonalität berücksichtigt. Die Durchführung des Tests über mindestens zwei vollständige Geschäftszyklen verhindert, dass Wochentag-Verzerrungen die Ergebnisse verfälschen.

Häufige Fehler bei A/B-Tests

Das vorzeitige Prüfen von Ergebnissen, bevor der Test statistische Signifikanz erreicht hat, erhöht die Rate falsch-positiver Ergebnisse. Der Analyseplan, die Stichprobengröße und die Dauer sollten vor dem Start des Tests dokumentiert und festgelegt werden.

24. Funnel-Analyse erklären und wo Abbrüche am meisten zählen

Die Funnel-Analyse verfolgt den Fortschritt von Nutzern durch eine Abfolge von Schritten (z. B. Homepage-Besuch, Produktansicht, Warenkorb, Checkout, Kauf). Die wirkungsvollste Optimierung zielt auf den Schritt mit dem größten absoluten Abfall, nicht auf den mit dem größten prozentualen Abfall. Ein Rückgang von 40 % von 1.000 Nutzern bei der Produktansicht auf 600 beim Warenkorb bedeutet 400 verlorene Nutzer. Ein Rückgang von 50 % von 100 Nutzern beim Checkout auf 50 beim Kauf bedeutet nur 50 verlorene Nutzer. Die Priorisierung des ersten Engpasses liefert mehr Gesamtconversions.

25. Wie wird ein KPI-Dashboard erstellt, das Stakeholder tatsächlich nutzen?

Dashboards scheitern, wenn sie zu viele Kennzahlen ohne Hierarchie anzeigen. Ein effektives KPI-Dashboard folgt der umgekehrten Pyramide: ein oder zwei Nordstern-Metriken oben (z. B. monatlich wiederkehrender Umsatz, Net Promoter Score), unterstützende Metriken in der Mitte (Conversion Rate, Abwanderungsrate, durchschnittlicher Bestellwert) und diagnostische Details, die über Drilldowns zugänglich sind. Die Begrenzung der obersten Ebene auf sieben oder weniger Kennzahlen reduziert die kognitive Belastung. Automatisierte Annotationen ("Der Umsatz fiel am 5. März um 12 % aufgrund eines Ausfalls des Zahlungsgateways") liefern den Kontext, den nackte Zahlen nicht bieten.

Fang an zu üben!

Teste dein Wissen mit unseren Interview-Simulatoren und technischen Tests.

Kostenloses Konto erstellen

Fazit

SQL Window Functions, CTEs und Kohortenabfragen erscheinen in nahezu jeder technischen Prüfung für Data Analysts. Das Schreiben dieser Abfragen aus dem Gedächtnis wird als Grundanforderung betrachtet.
Python-Pandas-Kenntnisse decken 80 % der Ad-hoc-Analyseaufgaben ab. Der Fokus sollte auf merge, groupby, transform und dem Umgang mit fehlenden Werten liegen.
Statistisches Denken (p-Werte, Korrelation vs. Kausalität, Experimentdesign) unterscheidet Analysten, die Zahlen berichten, von solchen, die sie korrekt interpretieren.
Power-BI- und Visualisierungsfragen testen Diagrammauswahl, DAX-Grundlagen und Dashboard-Performance-Optimierung.
Verhaltensantworten, die dem STAR-Framework folgen und quantifizierte Ergebnisse enthalten, übertreffen vage Erzählungen.
Data-Analytics-Interviewmodule auf SharpSkill üben, um diese Konzepte mit zeitgesteuerten Aufgaben zu vertiefen.
Zur ergänzenden Vorbereitung behandelt der Data-Science-Interviewleitfaden Fragen zu Machine Learning und statistischer Modellierung, die sich mit Senior-Data-Analyst-Positionen überschneiden.

Fang an zu üben!

Teste dein Wissen mit unseren Interview-Simulatoren und technischen Tests.

Kostenloses Konto erstellen

SQL-Fragen für Data-Analyst-Interviews

1. Was ist der Unterschied zwischen WHERE und HAVING?

2. Window Functions anhand eines praktischen Beispiels erklären

3. Wie erkennt und entfernt man doppelte Datensätze?

4. Eine Abfrage zur Berechnung der Retention nach Wochenkohorte schreiben

5. Was ist ein CTE, und wann sollte er eine Subquery ersetzen?

Python-Fragen für Data-Analytics-Interviews

6. Wie geht man mit fehlenden Werten in einem Pandas DataFrame um?

7. Merge, Join und Concatenate: Wann wird welche Methode verwendet?

8. Verkaufsdaten gruppieren, aggregieren und transformieren

9. Ausreißer in einem Datensatz erkennen und behandeln

Bereit für deine Data Analytics-Interviews?

Statistik- und Wahrscheinlichkeitsfragen

10. Den p-Wert verständlich erklären

11. Wann sollte der Median statt des Mittelwerts verwendet werden?

12. Was ist der Unterschied zwischen Korrelation und Kausalität?

13. Typ-I- und Typ-II-Fehler anhand eines Geschäftsbeispiels erklären

Power BI und Datenvisualisierung

14. Was ist DAX, und wie unterscheidet es sich von SQL?

15. Der Unterschied zwischen Import-Modus und DirectQuery

16. Wann wird ein Balkendiagramm statt eines Liniendiagramms verwendet?

17. Wie wird ein langsamer Power-BI-Bericht optimiert?

Verhaltensfragen und Fallstudien

18. Eine Situation beschreiben, in der Datenanalyse eine Geschäftsentscheidung verändert hat

19. Wie mit widersprüchlichen Datenanfragen von Stakeholdern umgegangen wird

20. Eine komplexe Analyse für ein nicht-technisches Publikum erklären

Datenbereinigung und ETL im Interview

21. Wie werden Daten nach der Ausführung einer ETL-Pipeline validiert?

22. Was ist der Unterschied zwischen normalisierten und denormalisierten Daten?

Advanced-Analytics-Fragen

23. Wie wird ein A/B-Test von Grund auf konzipiert?

24. Funnel-Analyse erklären und wo Abbrüche am meisten zählen

25. Wie wird ein KPI-Dashboard erstellt, das Stakeholder tatsächlich nutzen?

Fang an zu üben!

Fazit

Fang an zu üben!

Verwandte Artikel

Fortgeschrittenes SQL fuer Data-Analyst-Interviews: Unterabfragen, Pivots und Abfrageoptimierung 2026

Pandas 3.0 im Jahr 2026: Neue APIs, Breaking Changes und Interviewfragen

SQL fuer Datenanalysten: Fensterfunktionen, CTEs und fortgeschrittene Abfragen