Pytania rekrutacyjne z analityki danych w 2026 roku wykraczaja daleko poza znajomosc skladni SQL czy umiejetnosc tworzenia wykresow. Zespoly rekrutacyjne oceniaja kandydatow pod katem zdolnosci wyciagania wnioskow z nieuporzadkowanych zbiorow danych, komunikowania wynikow osobom nietechnicznym oraz laczenia kazdej metryki z konkretnym wynikiem biznesowym. Ponizszy przewodnik obejmuje 25 pytan, ktore najczesciej pojawiaja sie na rozmowach kwalifikacyjnych na stanowiska analityka danych na poziomie juniorskim, srednim i seniorskim.

Jak korzystac z tego przewodnika

Kazde pytanie zawiera zwiezla wzorcowa odpowiedz oraz, tam gdzie to istotne, gotowy do uruchomienia kod SQL lub Python. Warto najpierw samodzielnie napisac zapytanie, a dopiero potem sprawdzic rozwiazanie. Rekruterzy bardziej cenia proces rozumowania niz wyuczona na pamiec odpowiedz.

Pytania SQL na rozmowach z analityki danych

SQL pozostaje najczesciej testowana umiejetnoscia na rozmowach rekrutacyjnych z zakresu analityki danych. Kazda firma korzystajaca z relacyjnej bazy danych oczekuje od analitykow samodzielnego pisania zapytan.

1. Jaka jest roznica miedzy WHERE a HAVING?

WHERE filtruje wiersze przed agregacja. HAVING filtruje grupy po agregacji. Pomylenie tych dwoch klauzul to jeden z najczestszych bledow na rozmowach technicznych.

sql

-- monthly_revenue.sql
SELECT
  DATE_TRUNC('month', order_date) AS month,
  SUM(amount)                     AS revenue
FROM orders
WHERE status = 'completed'          -- row-level filter
GROUP BY month
HAVING SUM(amount) > 10000;         -- group-level filter

WHERE redukuje zbior danych zanim silnik bazy wykona GROUP BY. HAVING operuje na zagregowanym wyniku. Stosowanie WHERE wszedzie tam, gdzie to mozliwe, poprawia wydajnosc zapytania, poniewaz zmniejsza zbior roboczy na wczesniejszym etapie planu wykonania.

2. Wyjasnienie funkcji okienkowych na praktycznym przykladzie

Funkcje okienkowe obliczaja wartosc w obrebie zestawu wierszy powiazanych z biezacym wierszem, nie zwiekszajac przy tym liczby wynikow. Sa niezbedne przy tworzeniu rankingow, sum biezacych i porownan miedzyokresowych.

sql

-- user_ranking.sql
SELECT
  user_id,
  purchase_date,
  amount,
  ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY purchase_date) AS purchase_rank,
  SUM(amount)   OVER (PARTITION BY user_id ORDER BY purchase_date) AS running_total,
  LAG(amount)   OVER (PARTITION BY user_id ORDER BY purchase_date) AS prev_amount
FROM purchases;

ROW_NUMBER przypisuje kolejny numer w obrebie kazdego uzytkownika. SUM(...) OVER(...) oblicza sume biezaca bez koniecznosci stosowania self-joina. LAG pobiera wartosc z poprzedniego wiersza w celu bezposredniego porownania. Rekruterzy czesto prosza kandydatow o obliczenie wzrostu miesiac do miesiaca wlasnie wedlug tego wzorca.

3. Jak identyfikowac i usuwac zduplikowane rekordy

Wykrywanie duplikatow to codzienna czynnosc analitykow pracujacych z logami zdarzen, eksportami z systemow CRM lub danymi od podmiotow zewnetrznych.

sql

-- deduplicate_events.sql
WITH ranked AS (
  SELECT *,
    ROW_NUMBER() OVER (
      PARTITION BY user_id, event_type, DATE_TRUNC('minute', created_at)
      ORDER BY created_at
    ) AS rn
  FROM events
)
SELECT * FROM ranked WHERE rn = 1;

CTE przypisuje numer wiersza w obrebie kazdej grupy duplikatow. Zachowanie jedynie rn = 1 zwraca pierwsze wystapienie. Takie podejscie pozwala zachowac oryginalne dane, jednoczesnie eliminujac szum.

4. Zapytanie obliczajace retencje w kohortach tygodniowych

Analiza retencji kohortowej to jedno z najczesciej zlecanych zadan w zespolach produktowych i growthowych. Wzorzec SQL jest spojny niezaleznie od uzywanej bazy danych.

sql

-- weekly_cohort_retention.sql
WITH cohorts AS (
  SELECT
    user_id,
    DATE_TRUNC('week', MIN(event_date)) AS cohort_week
  FROM user_events
  GROUP BY user_id
),
activity AS (
  SELECT
    c.cohort_week,
    DATE_TRUNC('week', e.event_date) AS active_week,
    COUNT(DISTINCT e.user_id)        AS active_users
  FROM user_events e
  JOIN cohorts c ON c.user_id = e.user_id
  GROUP BY c.cohort_week, DATE_TRUNC('week', e.event_date)
)
SELECT
  cohort_week,
  EXTRACT(WEEK FROM active_week - cohort_week) AS weeks_since_signup,
  active_users
FROM activity
ORDER BY cohort_week, weeks_since_signup;

Pierwsze CTE identyfikuje tydzien rejestracji kazdego uzytkownika. Drugie CTE liczy unikatowych aktywnych uzytkownikow na kohorte na tydzien. Koncowe zapytanie przeksztalca wynik w macierz retencji. Rekruterzy oczekuja od kandydatow interpretacji biznesowej: gwaltowny spadek w pierwszym tygodniu sygnalizuje problem z onboardingiem, natomiast plaska krzywa od czwartego tygodnia wskazuje na stabilna baze uzytkownikow.

5. Czym jest CTE i kiedy nalezy go uzyc zamiast podzapytania?

Common Table Expression (CTE) to nazwany tymczasowy zbior wynikow definiowany za pomoca WITH. CTE poprawia czytelnosc kodu i umozliwia tworzenie zapytan rekurencyjnych. Podzapytania generuja gleboko zagniezdzony SQL, ktory trudno debugowac. CTE jest preferowane, gdy ta sama tabela pochodna jest uzywana wielokrotnie w zapytaniu lub gdy logika obejmuje trzy lub wiecej krokow transformacji.

Pytania z Pythona w analityce danych

Pytania dotyczace Pythona koncentruja sie na bibliotece Pandas, procesach czyszczenia danych oraz umiejetnosci wyjasniania kodu w kontekscie biznesowym. Rekruterzy oczekuja pragmatycznych rozwiazan, a nie akademickich abstrakcji.

6. Jak obsluzyc brakujace wartosci w Pandas DataFrame

Brakujace dane zaburzaja agregacje i dane wejsciowe modeli. Podejscie zalezy od typu kolumny i kontekstu biznesowego.

python

# handle_missing.py
import pandas as pd
import numpy as np

df = pd.read_csv('sales.csv')

# Inspect the extent of missing data
print(df.isnull().sum())
print(df.isnull().mean().round(3))  # percentage per column

# Strategy 1: drop rows where critical columns are null
df_clean = df.dropna(subset=['customer_id', 'amount'])

# Strategy 2: fill numeric columns with median (robust to outliers)
df['amount'] = df['amount'].fillna(df['amount'].median())

# Strategy 3: fill categorical columns with the mode
df['region'] = df['region'].fillna(df['region'].mode()[0])

Usuwanie wierszy jest odpowiednie, gdy wskaznik brakow nie przekracza 5%, a kolumna jest krytyczna. Imputacja mediana jest bezpieczniejsza niz srednia w przypadku rozkladow skosnych. Imputacja dominanta sprawdza sie w kolumnach kategorycznych z wyrazna wartoscia dominujaca. Dokumentowanie strategii imputacji jest kluczowe dla sciezki audytu.

7. Merge, join i concatenate: kiedy stosowac poszczegolne metody

Pandas oferuje kilka sposobow laczenia ramek danych (DataFrames). Wybor zalezy od tego, czy operacja jest wierszowa czy kolumnowa, oraz czy wymagane jest dopasowanie na podstawie klucza.

python

# combine_dataframes.py
import pandas as pd

orders = pd.read_csv('orders.csv')
customers = pd.read_csv('customers.csv')

# Key-based merge (equivalent to SQL JOIN)
result = orders.merge(customers, on='customer_id', how='left')

# Stack rows from multiple sources
all_events = pd.concat([events_q1, events_q2], ignore_index=True)

# Add columns side-by-side (same row count required)
combined = pd.concat([features, labels], axis=1)

merge jest wlasciwym wyborem przy laczeniach opartych na kluczu. concat z domyslnym axis=0 laczy wiersze. concat z axis=1 dodaje kolumny. Uzycie how='left' zachowuje wszystkie wiersze z lewej ramki danych, co odpowiada SQL-owemu LEFT JOIN.

8. Grupowanie, agregacja i transformacja danych sprzedazowych

Operacje GroupBy sa odpowiednikiem SQL-owego GROUP BY w Pandas. Ten wzorzec pojawia sie niemal w kazdym zadaniu analitycznym typu take-home.

python

# sales_analysis.py
import pandas as pd

df = pd.read_csv('transactions.csv', parse_dates=['date'])

# Monthly revenue by product category
monthly = (
    df.groupby([pd.Grouper(key='date', freq='M'), 'category'])
    .agg(revenue=('amount', 'sum'), orders=('order_id', 'nunique'))
    .reset_index()
)

# Add a column with each category's share of total monthly revenue
monthly['share'] = (
    monthly.groupby('date')['revenue']
    .transform(lambda x: x / x.sum())
    .round(4)
)

print(monthly.head(10))

agg z nazwana agregacja utrzymuje czytelnosc wynikow. transform rozsyla obliczenie na poziomie grupy z powrotem do kazdego wiersza, co eliminuje potrzebe dodatkowego merge'a. Ta kombinacja pokrywa wiekszosc zadan raportowania ad-hoc.

9. Wykrywanie i obsluga wartosci odstajacych w zbiorze danych

Wykrywanie wartosci odstajacych okresla, czy skrajne wartosci sa bledami wprowadzania danych, sygnalami oszustwa, czy autentycznymi przypadkami brzegowymi.

python

# detect_outliers.py
import pandas as pd
import numpy as np

df = pd.read_csv('transactions.csv')

# IQR method
Q1 = df['amount'].quantile(0.25)
Q3 = df['amount'].quantile(0.75)
IQR = Q3 - Q1
lower = Q1 - 1.5 * IQR
upper = Q3 + 1.5 * IQR

outliers = df[(df['amount'] < lower) | (df['amount'] > upper)]
print(f'Outliers found: {len(outliers)} ({len(outliers)/len(df)*100:.1f}%)')

# Cap instead of remove (winsorization)
df['amount_capped'] = df['amount'].clip(lower=lower, upper=upper)

Metoda IQR oznacza wartosci przekraczajace 1,5-krotnosc rozstepu miedzykwartylowego. Obcinanie (winsoryzacja) zachowuje liczbe wierszy, jednoczesnie ograniczajac wplyw wartosci ekstremalnych. Calkowite usuwanie jest uzasadnione wylacznie wtedy, gdy wartosci odstajace reprezentuja oczywiste bledy.

Gotowy na rozmowy o Data Analytics?

Ćwicz z naszymi interaktywnymi symulatorami, flashcards i testami technicznymi.

Odkryj Data Analytics

Pytania ze statystyki i rachunku prawdopodobienstwa

Bieglosc statystyczna odroznia analitykow, ktorzy jedynie raportuja liczby, od tych, ktorzy potrafia je poprawnie interpretowac. Ponizsze pytania weryfikuja fundamentalne zrozumienie tych zagadnien.

10. Wyjasnienie wartosci p w prostych slowach

Wartosc p (p-value) to prawdopodobienstwo zaobserwowania wyniku co najmniej tak ekstremalnego jak uzyskany, przy zalozeniu, ze hipoteza zerowa jest prawdziwa. Wartosc p rowna 0,03 nie oznacza, ze istnieje 3% szans na prawdziwosc hipotezy zerowej. Oznacza, ze gdyby hipoteza zerowa byla prawdziwa, wyniki tak ekstremalne pojawilyby sie przypadkowo w 3% przypadkow. Prog (alfa) jest zazwyczaj ustalany na poziomie 0,05, ale jego wybor zalezy od kosztu falszywego alarmu w danym kontekscie biznesowym.

11. Kiedy stosowac mediane zamiast sredniej

Srednia jest wrazliwa na wartosci skrajne. Dane o dochodach, kwotach transakcji czy dlugosciach sesji to klasyczne przyklady, w ktorych mediana lepiej oddaje typowa tendencje centralna. Zbior danych z kilkoma transakcjami o duzej wartosci moze przesunac srednia znacznie powyzej poziomu doswiadczanego przez typowego klienta. Raportowanie mediany obok sredniej, z uwzglednieniem odchylenia standardowego, daje interesariuszom pelny obraz sytuacji.

12. Jaka jest roznica miedzy korelacja a przyczynowoscia?

Korelacja mierzy sile i kierunek liniowej zaleznosci miedzy dwiema zmiennymi. Przyczynowosc oznacza, ze jedna zmienna bezposrednio wplywa na druga. Sprzedaz lodow i liczba utoniec koreluja ze soba, poniewaz obie rosna latem, a nie dlatego, ze jedna powoduje druga. Ustalenie przyczynowosci wymaga kontrolowanego eksperymentu (testu A/B) lub rygorystycznego schematu wnioskowania przyczynowego, takiego jak metoda roznic w roznicach (difference-in-differences) lub zmiennych instrumentalnych.

13. Bledy typu I i typu II z przykladem biznesowym

Blad typu I (falszywie pozytywny) wystepuje, gdy test blednie odrzuca hipoteze zerowa. Przyklad: stwierdzenie, ze nowy widok koszyka zwieksza konwersje, podczas gdy w rzeczywistosci nie ma zadnego efektu, co prowadzi do niepotrzebnej zmiany produktu. Blad typu II (falszywie negatywny) wystepuje, gdy test nie wykrywa rzeczywistego efektu. Przyklad: zachowanie starego widoku koszyka, poniewaz test nie mial wystarczajacej wielkosci proby, aby wykryc rzeczywisty wzrost konwersji o 2%. Zwiekszenie wielkosci proby zmniejsza ryzyko bledu typu II. Obnizenie progu alfa zmniejsza ryzyko bledu typu I, ale jednoczesnie zwieksza ryzyko bledu typu II.

Pytania dotyczace Power BI i wizualizacji danych

Pytania z wizualizacji oceniaja, czy kandydat potrafi dobrac odpowiedni typ wykresu, budowac latwe w utrzymaniu dashboardy oraz komunikowac wnioski z danych osobom nietechnicznym.

14. Czym jest DAX i czym rozni sie od SQL?

DAX (Data Analysis Expressions) to jezyk formul uzywany w Power BI, Analysis Services i Excel Power Pivot. W przeciwienstwie do SQL, ktory operuje na zbiorach wierszy, DAX dziala w ramach kontekstu filtru, ktory zmienia sie dynamicznie w zaleznosci od slicerow, filtrow i kontekstu wiersza. Funkcja CALCULATE w DAX modyfikuje kontekst filtru przed obliczeniem wyrazenia -- to koncept bez bezposredniego odpowiednika w SQL.

15. Roznica miedzy trybem Import a DirectQuery

Tryb Import laduje dane do silnika in-memory Power BI (VertiPaq), zapewniajac szybkie odpowiedzi na zapytania, ale wymagajac zaplanowanych odswiezan. DirectQuery wysyla zapytania do zrodlowej bazy danych w czasie rzeczywistym, gwarantujac aktualnosc danych, lecz uzalezniony od wydajnosci systemu zrodlowego. W 2026 roku Microsoft Fabric wprowadza tryb Direct Lake, ktory odczytuje pliki Parquet z OneLake bez importowania danych czy odpytywania endpointu SQL, laczac szybkosc trybu Import z niemal natychmiastowa aktualizacja danych.

16. Kiedy uzywac wykresu slupkowego, a kiedy liniowego

Wykresy slupkowe porownuja kategorie dyskretne (przychod wedlug regionu, liczba zamowien wedlug produktu). Wykresy liniowe pokazuja trendy w ciaglych przedzialach czasowych (dzienni aktywni uzytkownicy, miesieczny wskaznik odpywu). Uzycie wykresu liniowego dla danych kategorycznych sugeruje trend miedzy niepowiazanymi kategoriami, co wprowadza odbiorcow w blad. Czeste pytanie uzupelniajace dotyczy wykresow kolowych: powinny byc ograniczone do prezentowania czesci calkowitych, gdy liczba segmentow nie przekracza pieciu, poniewaz ludzkie oko z trudem porownuje katy.

17. Jak zoptymalizowac wolny raport w Power BI

Wolne raporty zazwyczaj wynikaja z nadmiernej liczby kolumn w modelu danych, zlozonych miar DAX obliczanych wiersz po wierszu lub wizualizacji odpytujacych miliony wierszy. Lista krokow optymalizacyjnych obejmuje: usuniecie nieuzywanych kolumn w celu zmniejszenia rozmiaru modelu, zastapienie funkcji iteracyjnych (SUMX, FILTER) ich nieiteracyjnymi odpowiednikami tam, gdzie to mozliwe, ograniczenie liczby wizualizacji na stronie do ponizej 15 oraz stosowanie tabel agregacji dla wymiarow o wysokiej kardynalnosci. Performance Analyzer wbudowany w Power BI Desktop dokladnie wskazuje, ktora wizualizacja lub zapytanie DAX stanowi waskie gardlo.

Pytania behawioralne i studium przypadku

Umiejetnosci techniczne pozwalaja kandydatom dostac sie na rozmowe. Pytania behawioralne decyduja o tym, czy otrzymaja oferte. Kazda odpowiedz powinna byc sformulowana wedlug schematu STAR: Sytuacja, Zadanie, Dzialanie, Rezultat.

18. Opis sytuacji, w ktorej analiza danych zmienila decyzje biznesowa

Silne odpowiedzi zawieraja konkretna metryke, ktora ulegla zmianie, zastosowana metode analizy oraz wplyw wyrazony w wartosci pieniaznej lub procentowej. Slabe odpowiedzi opisuja dashboard bez powiazania go z wynikiem biznesowym. Przykladowa struktura: "Analiza odpywu klientow w produkcie SaaS wykazala, ze uzytkownicy, ktorzy nie ukonczyli onboardingu w ciagu 48 godzin, mieli o 60% wyzszy wskaznik odpywu po 30 dniach. Zespol produktowy wdrozyl automatyczna sekwencje e-maili uruchamiana po 24 godzinach, co zmniejszylo 30-dniowy odpyw o 8 punktow procentowych."

19. Jak radzic sobie ze sprzecznymi zapotrzebowaniami na dane od interesariuszy

To pytanie weryfikuje umiejetnosci priorytetyzacji i komunikacji. Zalecane podejscie: wyjasnij pytanie biznesowe stojace za kazdym zapotrzebowaniem, zidentyfikuj wspolne metryki, zaproponuj jeden dashboard obslugujacy oba potrzeby i przejrzyscie udokumentuj kompromisy. Odmowa interesariuszowi jest dopuszczalna, gdy jest poparta obawami dotyczacymi zarzadzania danymi lub ograniczeniami zasobow, pod warunkiem zaproponowania alternatywy.

20. Wyjasnienie zlozonej analizy osobom nietechnicznym

Rekruterzy czesto prosza kandydatow o wyjasnienie koncepcji takiej jak regresja czy analiza kohortowa, tak jakby rozmawiali z menedzerem marketingu. Najlepsze odpowiedzi uzywaja analogii, unikaja zargonu i osadzaja wyjasnienie w kontekscie wyniku biznesowego. "Analiza kohortowa grupuje klientow wedlug miesiaca rejestracji i sledzi, ilu z nich pozostaje aktywnych po trzech miesiacach. Wykres pokazuje, ze uzytkownicy zarejestrowani w styczniu utrzymali sie lepiej niz ci z lutego, co pokrywa sie ze zmianami w onboardingu wdrozonymi pod koniec grudnia."

Schemat STAR -- krotkie przypomnienie

Sytuacja: okresl kontekst. Zadanie: zdefiniuj cel. Dzialanie: opisz podjete kroki. Rezultat: skwantyfikuj wplyw. Rekruterzy penalizuja ogolnikowe odpowiedzi pomijajace etap Rezultatu.

Czyszczenie danych i pytania o ETL

Problemy z jakoscia danych pochaniaja znaczna czesc czasu pracy analityka. Ponizsze pytania weryfikuja praktyczne umiejetnosci przetwarzania danych.

21. Jak walidowac dane po uruchomieniu potoku ETL

Kontrole walidacyjne powinny obejmowac: liczbe wierszy (zrodlo vs. cel), wskazniki pustych wartosci w kolumnach krytycznych, integralnosc referencyjna miedzy tabelami oraz zmiany w rozkladzie wartosci (wykrywanie cichych zmian schematu). Automatyczne kontrole uruchamiane po kazdym wykonaniu potoku zapobiegaja przedostawaniu sie blednych danych na dashboardy.

python

# etl_validation.py
import pandas as pd

def validate_pipeline(source_df: pd.DataFrame, target_df: pd.DataFrame) -> dict:
    checks = {}
    # Row count match
    checks['row_count_match'] = len(source_df) == len(target_df)
    # Null rate on critical columns
    for col in ['user_id', 'event_date', 'amount']:
        null_rate = target_df[col].isnull().mean()
        checks[f'{col}_null_rate'] = round(null_rate, 4)
    # Revenue reconciliation
    source_total = source_df['amount'].sum()
    target_total = target_df['amount'].sum()
    checks['revenue_diff_pct'] = round(
        abs(source_total - target_total) / source_total * 100, 2
    )
    return checks

results = validate_pipeline(source, target)
for check, value in results.items():
    print(f'{check}: {value}')

Funkcja zwraca slownik wynikow walidacji, ktory moze zasilac system alertow. Roznica w przychodach powyzej 0,01% powinna uruchomic dochodzenie.

22. Jaka jest roznica miedzy danymi znormalizowanymi a zdenormalizowanymi?

Dane znormalizowane minimalizuja redundancje poprzez podzial informacji na powiazane tabele (3NF). Dane zdenormalizowane lacza tabele w szersze, bardziej plaskie struktury zoptymalizowane pod katem analitycznych zapytan odczytowych. Systemy OLTP faworyzuja normalizacje ze wzgledu na integralnosc danych. Hurtownie danych i narzedzia BI preferuja denormalizacje (schemat gwiazdy, schemat platka sniegu) ze wzgledu na szybkosc zapytan. Zrozumienie tego kompromisu jest fundamentalne dla projektowania wydajnych potokow danych.

Pytania z zaawansowanej analityki

Stanowiska seniorskie wymagaja znajomosci eksperymentowania, prognozowania i miedzyzespolowej strategii danych.

23. Jak zaprojektowac test A/B od podstaw

Test A/B wymaga pieciu elementow: jasna hipoteza ("Zmiana koloru przycisku CTA z szarego na zielony zwieksza wskaznik klikalnosci o 5%"), glowna metryka (wskaznik klikalnosci), obliczenie wielkosci proby na podstawie oczekiwanego efektu i pozadanej mocy testu (zwykle 80%), losowy podzial uzytkownikow na grupe kontrolna i testowa oraz z gory ustalony czas trwania testu uwzgledniajacy sezonowosc tygodniowa. Prowadzenie testu przez co najmniej dwa pelne cykle biznesowe zapobiega znieksztalceniu wynikow przez efekt dnia tygodnia.

Najczestsze bledy w testach A/B

Podgladanie wynikow przed osiagnieciem istotnosci statystycznej zawyza wskaznik falszywych alarmow. Nalezy wczesniej zarejestrowac plan analizy, wielkosc proby i czas trwania testu przed jego uruchomieniem.

24. Analiza lejka sprzedazowego i identyfikacja najwazniejszych odpywow

Analiza lejka sledzi progresje uzytkownikow przez kolejne etapy (np. wizyta na stronie glownej, wyswietlenie produktu, dodanie do koszyka, przejscie do kasy, zakup). Optymalizacja o najwyzszym wplywie celuje w etap z najwieksza bezwzgledna utrata uzytkownikow, a nie z najwieksza utrata procentowa. Spadek o 40% z 1000 uzytkownikow na etapie wyswietlenia produktu do 600 przy dodaniu do koszyka oznacza 400 utraconych uzytkownikow. Spadek o 50% ze 100 uzytkownikow na etapie kasy do 50 przy zakupie oznacza jedynie 50 utraconych uzytkownikow. Priorytetyzacja pierwszego waskiego gardla przynosi wiecej calkowitych konwersji.

25. Jak zbudowac dashboard KPI, z ktorego interesariusze faktycznie beda korzystac

Dashboardy zawodza, gdy prezentuja zbyt wiele metryk bez hierarchii. Skuteczny dashboard KPI stosuje zasade odwroconej piramidy: jedna lub dwie metryki glowne na gorze (np. miesieczny przychod cykliczny, wskaznik NPS), metryki wspierajace w srodku (wskaznik konwersji, wskaznik odpywu, srednia wartosc zamowienia) oraz szczegoly diagnostyczne dostepne przez drill-downy. Ograniczenie widoku najwyzszego poziomu do siedmiu lub mniej metryk zmniejsza obciazenie poznawcze. Dodanie automatycznych adnotacji ("Przychod spadl o 12% 5 marca z powodu awarii bramki platniczej") dostarcza kontekst, ktorego brakuje surowym liczbom.

Zacznij ćwiczyć!

Sprawdź swoją wiedzę z naszymi symulatorami rozmów i testami technicznymi.

Utwórz darmowe konto

Podsumowanie

Funkcje okienkowe SQL, CTE i zapytania kohortowe pojawiaja sie niemal na kazdej rozmowie technicznej z zakresu analityki danych. Pisanie ich z pamieci to podstawowe oczekiwanie.
Bieglosc w Pandas pokrywa 80% zadan analitycznych ad-hoc. Kluczowe sa merge, groupby, transform i obsluga wartosci pustych.
Rozumowanie statystyczne (wartosci p, korelacja vs. przyczynowosc, projektowanie eksperymentow) odroznia analitykow raportujacych liczby od tych, ktorzy potrafia je poprawnie interpretowac.
Pytania o Power BI i wizualizacje testuja dobor wykresow, podstawy DAX i optymalizacje wydajnosci dashboardow.
Odpowiedzi behawioralne sformulowane wedlug schematu STAR, zawierajace skwantyfikowane wyniki, sa znacznie lepiej oceniane niz ogolnikowe narracje.
Cwicz moduly rozmow kwalifikacyjnych z analityki danych na SharpSkill, aby przejsc przez te koncepcje w formie cwiczen na czas.
Dla powiazanego przygotowania, przewodnik po rozmowach z Data Science obejmuje pytania z uczenia maszynowego i modelowania statystycznego, ktore pokrywaja sie z rolami seniorskich analitykow danych.

Zacznij ćwiczyć!

Sprawdź swoją wiedzę z naszymi symulatorami rozmów i testami technicznymi.

Utwórz darmowe konto

Pytania SQL na rozmowach z analityki danych

1. Jaka jest roznica miedzy WHERE a HAVING?

2. Wyjasnienie funkcji okienkowych na praktycznym przykladzie

3. Jak identyfikowac i usuwac zduplikowane rekordy

4. Zapytanie obliczajace retencje w kohortach tygodniowych

5. Czym jest CTE i kiedy nalezy go uzyc zamiast podzapytania?

Pytania z Pythona w analityce danych

6. Jak obsluzyc brakujace wartosci w Pandas DataFrame

7. Merge, join i concatenate: kiedy stosowac poszczegolne metody

8. Grupowanie, agregacja i transformacja danych sprzedazowych

9. Wykrywanie i obsluga wartosci odstajacych w zbiorze danych

Gotowy na rozmowy o Data Analytics?

Pytania ze statystyki i rachunku prawdopodobienstwa

10. Wyjasnienie wartosci p w prostych slowach

11. Kiedy stosowac mediane zamiast sredniej

12. Jaka jest roznica miedzy korelacja a przyczynowoscia?

13. Bledy typu I i typu II z przykladem biznesowym

Pytania dotyczace Power BI i wizualizacji danych

14. Czym jest DAX i czym rozni sie od SQL?

15. Roznica miedzy trybem Import a DirectQuery

16. Kiedy uzywac wykresu slupkowego, a kiedy liniowego

17. Jak zoptymalizowac wolny raport w Power BI

Pytania behawioralne i studium przypadku

18. Opis sytuacji, w ktorej analiza danych zmienila decyzje biznesowa

19. Jak radzic sobie ze sprzecznymi zapotrzebowaniami na dane od interesariuszy

20. Wyjasnienie zlozonej analizy osobom nietechnicznym

Czyszczenie danych i pytania o ETL

21. Jak walidowac dane po uruchomieniu potoku ETL

22. Jaka jest roznica miedzy danymi znormalizowanymi a zdenormalizowanymi?

Pytania z zaawansowanej analityki

23. Jak zaprojektowac test A/B od podstaw

24. Analiza lejka sprzedazowego i identyfikacja najwazniejszych odpywow

25. Jak zbudowac dashboard KPI, z ktorego interesariusze faktycznie beda korzystac

Zacznij ćwiczyć!

Podsumowanie

Zacznij ćwiczyć!

Powiązane artykuły

Pandas 3.0 w 2026: Nowe API, Przełomowe Zmiany i Pytania Rekrutacyjne

Zaawansowany SQL na rozmowach kwalifikacyjnych dla analityków danych: podzapytania, pivoty i optymalizacja zapytań 2026

SQL dla analityków danych: funkcje okienkowe, CTE i zaawansowane zapytania