2026년 데이터 애널리틱스 면접에서는 SQL 문법이나 차트 작성 능력만으로는 충분하지 않습니다. 채용팀은 지원자가 정리되지 않은 데이터셋에서 의미를 추출하고, 비기술 이해관계자에게 분석 결과를 전달하며, 모든 지표를 비즈니스 성과에 연결하는 능력을 평가합니다. 본 가이드에서는 주니어부터 시니어까지 다양한 데이터 분석가 직군의 면접에서 가장 빈번하게 출제되는 25개 질문을 다룹니다.

본 가이드 활용법

각 질문에는 간결한 모범 답변과 필요에 따라 실행 가능한 SQL 또는 Python 코드가 포함되어 있습니다. 답변을 읽기 전에 먼저 직접 쿼리를 작성하는 연습을 하는 것이 좋습니다. 면접관은 암기된 답변보다 사고 과정을 더 중시합니다.

데이터 분석가 면접의 SQL 질문

SQL은 데이터 애널리틱스 면접에서 가장 많이 테스트되는 기술입니다. 관계형 데이터베이스를 사용하는 모든 기업은 분석가가 도움 없이 쿼리를 작성할 수 있기를 기대합니다.

1. WHERE와 HAVING의 차이점을 설명해 주십시오

WHERE는 집계 전에 행을 필터링합니다. HAVING은 집계 후에 그룹을 필터링합니다. 이 두 가지를 혼동하는 것은 기술 면접에서 가장 흔한 실수 중 하나입니다.

sql

-- monthly_revenue.sql
SELECT
  DATE_TRUNC('month', order_date) AS month,
  SUM(amount)                     AS revenue
FROM orders
WHERE status = 'completed'          -- row-level filter
GROUP BY month
HAVING SUM(amount) > 10000;         -- group-level filter

WHERE는 데이터베이스 엔진이 GROUP BY를 실행하기 전에 데이터셋을 축소합니다. HAVING은 집계된 결과에 대해 작동합니다. 가능한 한 WHERE를 사용하면 실행 계획의 초기 단계에서 작업 세트를 줄일 수 있으므로 쿼리 성능이 향상됩니다.

2. 윈도우 함수를 실제 예시와 함께 설명해 주십시오

윈도우 함수는 결과 세트를 축소하지 않고, 현재 행과 관련된 행 세트에 걸쳐 값을 계산합니다. 순위 지정, 누적 합계, 기간 대비 비교에 필수적인 기능입니다.

sql

-- user_ranking.sql
SELECT
  user_id,
  purchase_date,
  amount,
  ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY purchase_date) AS purchase_rank,
  SUM(amount)   OVER (PARTITION BY user_id ORDER BY purchase_date) AS running_total,
  LAG(amount)   OVER (PARTITION BY user_id ORDER BY purchase_date) AS prev_amount
FROM purchases;

ROW_NUMBER는 사용자별로 순차적인 순위를 할당합니다. SUM(...) OVER(...)는 셀프 조인 없이 누적 합계를 계산합니다. LAG는 이전 행의 값을 가져와 직접 비교할 수 있게 합니다. 면접관은 바로 이 패턴을 사용하여 월별 성장률을 계산하도록 요청하는 경우가 많습니다.

3. 중복 레코드를 식별하고 제거하는 방법을 설명해 주십시오

중복 감지는 이벤트 로그, CRM 내보내기, 서드파티 데이터 피드를 다루는 분석가에게 일상적인 작업입니다.

sql

-- deduplicate_events.sql
WITH ranked AS (
  SELECT *,
    ROW_NUMBER() OVER (
      PARTITION BY user_id, event_type, DATE_TRUNC('minute', created_at)
      ORDER BY created_at
    ) AS rn
  FROM events
)
SELECT * FROM ranked WHERE rn = 1;

CTE는 각 중복 그룹 내에서 행 번호를 할당합니다. rn = 1인 행만 유지하면 첫 번째 발생만 반환됩니다. 이 접근 방식은 원본 데이터를 보존하면서 노이즈를 필터링합니다.

4. 주간 코호트별 리텐션을 계산하는 쿼리를 작성해 주십시오

코호트 리텐션은 프로덕트팀과 그로스팀에서 가장 많이 요청되는 분석 중 하나입니다. SQL 패턴은 모든 데이터베이스에서 일관된 구조를 따릅니다.

sql

-- weekly_cohort_retention.sql
WITH cohorts AS (
  SELECT
    user_id,
    DATE_TRUNC('week', MIN(event_date)) AS cohort_week
  FROM user_events
  GROUP BY user_id
),
activity AS (
  SELECT
    c.cohort_week,
    DATE_TRUNC('week', e.event_date) AS active_week,
    COUNT(DISTINCT e.user_id)        AS active_users
  FROM user_events e
  JOIN cohorts c ON c.user_id = e.user_id
  GROUP BY c.cohort_week, DATE_TRUNC('week', e.event_date)
)
SELECT
  cohort_week,
  EXTRACT(WEEK FROM active_week - cohort_week) AS weeks_since_signup,
  active_users
FROM activity
ORDER BY cohort_week, weeks_since_signup;

첫 번째 CTE는 각 사용자의 가입 주를 식별합니다. 두 번째 CTE는 코호트별, 주별 고유 활성 사용자 수를 계산합니다. 최종 쿼리는 결과를 리텐션 매트릭스로 변환합니다. 면접관은 비즈니스 해석을 설명할 것을 기대합니다. 1주차의 급격한 하락은 온보딩 문제를 나타내고, 4주차 이후의 안정적인 곡선은 핵심 사용자층이 형성되었음을 시사합니다.

5. CTE란 무엇이며, 서브쿼리 대신 언제 사용해야 합니까?

Common Table Expression(CTE)은 WITH로 정의되는 명명된 임시 결과 세트입니다. CTE는 가독성을 향상시키고 재귀 쿼리를 가능하게 합니다. 서브쿼리는 깊게 중첩된 SQL을 생성하기 쉬워 디버깅이 어려워집니다. CTE는 동일한 파생 테이블이 쿼리 내에서 여러 번 참조되거나, 로직에 3개 이상의 변환 단계가 있는 경우에 권장됩니다.

Python 데이터 분석 면접 질문

Python 질문은 Pandas, 데이터 클리닝 워크플로, 코드를 비즈니스 용어로 설명하는 능력에 초점을 맞춥니다. 면접관은 학술적인 추상화가 아닌 실용적인 솔루션을 기대합니다.

6. Pandas DataFrame에서 결측값을 처리하는 방법을 설명해 주십시오

결측 데이터는 집계와 모델 입력을 손상시킵니다. 접근 방식은 컬럼의 유형과 비즈니스 컨텍스트에 따라 달라집니다.

python

# handle_missing.py
import pandas as pd
import numpy as np

df = pd.read_csv('sales.csv')

# Inspect the extent of missing data
print(df.isnull().sum())
print(df.isnull().mean().round(3))  # percentage per column

# Strategy 1: drop rows where critical columns are null
df_clean = df.dropna(subset=['customer_id', 'amount'])

# Strategy 2: fill numeric columns with median (robust to outliers)
df['amount'] = df['amount'].fillna(df['amount'].median())

# Strategy 3: fill categorical columns with the mode
df['region'] = df['region'].fillna(df['region'].mode()[0])

결측률이 5% 미만이고 해당 컬럼이 중요한 경우에는 행 삭제가 효과적입니다. 중앙값 대체는 편향된 분포에 대해 평균값보다 안전합니다. 최빈값 대체는 지배적인 값을 가진 범주형 컬럼에 적합합니다. 대체 전략을 문서화하는 것은 감사 추적을 위해 필수적입니다.

7. merge, join, concatenate: 각각의 사용 시점

Pandas는 DataFrame을 결합하는 여러 가지 방법을 제공합니다. 선택은 연산이 행 방향인지 열 방향인지, 그리고 키 기반 매칭이 필요한지에 따라 달라집니다.

python

# combine_dataframes.py
import pandas as pd

orders = pd.read_csv('orders.csv')
customers = pd.read_csv('customers.csv')

# Key-based merge (equivalent to SQL JOIN)
result = orders.merge(customers, on='customer_id', how='left')

# Stack rows from multiple sources
all_events = pd.concat([events_q1, events_q2], ignore_index=True)

# Add columns side-by-side (same row count required)
combined = pd.concat([features, labels], axis=1)

merge는 키 기반 조인에 적합합니다. 기본값인 axis=0의 concat은 행을 쌓습니다. axis=1의 concat은 열을 나란히 결합합니다. how='left'를 사용하면 왼쪽 DataFrame의 모든 행이 보존되며, SQL의 LEFT JOIN과 동일한 동작을 합니다.

8. 매출 데이터의 그룹화, 집계 및 변환

GroupBy 연산은 Pandas에서 SQL의 GROUP BY에 해당합니다. 이 패턴은 거의 모든 데이터 분석가 과제에 등장합니다.

python

# sales_analysis.py
import pandas as pd

df = pd.read_csv('transactions.csv', parse_dates=['date'])

# Monthly revenue by product category
monthly = (
    df.groupby([pd.Grouper(key='date', freq='M'), 'category'])
    .agg(revenue=('amount', 'sum'), orders=('order_id', 'nunique'))
    .reset_index()
)

# Add a column with each category's share of total monthly revenue
monthly['share'] = (
    monthly.groupby('date')['revenue']
    .transform(lambda x: x / x.sum())
    .round(4)
)

print(monthly.head(10))

명명된 집계를 사용한 agg는 출력의 가독성을 유지합니다. transform은 그룹 수준의 계산을 각 행에 브로드캐스트하여 별도의 merge 단계를 불필요하게 만듭니다. 이 조합으로 대부분의 애드혹 리포팅 작업을 처리할 수 있습니다.

9. 데이터셋에서 이상치를 감지하고 처리하는 방법

이상치 감지는 극단적인 값이 데이터 입력 오류인지, 부정행위 신호인지, 아니면 정당한 엣지 케이스인지를 판단합니다.

python

# detect_outliers.py
import pandas as pd
import numpy as np

df = pd.read_csv('transactions.csv')

# IQR method
Q1 = df['amount'].quantile(0.25)
Q3 = df['amount'].quantile(0.75)
IQR = Q3 - Q1
lower = Q1 - 1.5 * IQR
upper = Q3 + 1.5 * IQR

outliers = df[(df['amount'] < lower) | (df['amount'] > upper)]
print(f'Outliers found: {len(outliers)} ({len(outliers)/len(df)*100:.1f}%)')

# Cap instead of remove (winsorization)
df['amount_capped'] = df['amount'].clip(lower=lower, upper=upper)

IQR 방법은 사분위 범위의 1.5배를 초과하는 값을 플래그합니다. 캡핑(윈저라이제이션)은 행 수를 유지하면서 극단값의 영향을 제한합니다. 제거는 이상치가 명백한 오류인 경우에만 적절합니다.

Data Analytics 면접 준비가 되셨나요?

인터랙티브 시뮬레이터, flashcards, 기술 테스트로 연습하세요.

Data Analytics 탐색하기

통계 및 확률 질문

통계 리터러시는 숫자를 보고하기만 하는 데이터 분석가와 올바르게 해석하는 분석가를 구분합니다. 이 질문들은 기초적인 이해도를 테스트합니다.

10. p-값을 쉬운 말로 설명해 주십시오

p-값은 귀무가설이 참이라고 가정했을 때, 측정된 결과만큼 또는 그 이상으로 극단적인 결과가 관측될 확률입니다. p-값이 0.03이라는 것은 귀무가설이 참일 확률이 3%라는 의미가 아닙니다. 귀무가설이 참이라면, 이 정도로 극단적인 결과가 우연히 3%의 확률로 발생한다는 것을 의미합니다. 임계값(알파)은 일반적으로 0.05로 설정되지만, 특정 비즈니스 상황에서 위양성의 비용에 따라 달라집니다.

11. 평균값 대신 중앙값을 사용해야 하는 경우는 언제입니까?

평균값은 극단적인 값에 민감합니다. 소득 데이터, 거래 금액, 세션 시간은 중앙값이 더 대표적인 중심 경향을 나타내는 전형적인 사례입니다. 소수의 고액 엔터프라이즈 거래가 포함된 데이터셋에서는 평균값이 일반적인 고객 경험을 훨씬 초과하는 값으로 끌어올려질 수 있습니다. 중앙값을 평균값과 함께 보고하고 표준편차를 포함하면 이해관계자에게 완전한 전체상을 제공할 수 있습니다.

12. 상관관계와 인과관계의 차이를 설명해 주십시오

상관관계는 두 변수 간 선형 관계의 강도와 방향을 측정합니다. 인과관계는 한 변수가 다른 변수에 직접적으로 영향을 미치는 것을 의미합니다. 아이스크림 판매량과 익사 사고는 상관관계가 있지만, 이는 둘 다 여름에 증가하기 때문이지 하나가 다른 하나를 유발하는 것이 아닙니다. 인과관계를 확립하려면 대조 실험(A/B 테스트) 또는 이중차분법이나 도구변수법 같은 엄격한 인과 추론 프레임워크가 필요합니다.

13. 제1종 오류와 제2종 오류를 비즈니스 예시로 설명해 주십시오

제1종 오류(위양성)는 검정이 귀무가설을 잘못 기각할 때 발생합니다. 예시: 새로운 결제 흐름이 전환율을 높인다고 결론지었지만 실제로는 효과가 없어 불필요한 프로덕트 변경으로 이어지는 경우입니다. 제2종 오류(위음성)는 검정이 실제 효과를 감지하지 못할 때 발생합니다. 예시: 테스트의 표본 크기가 불충분하여 실제 2% 상승을 감지하지 못해 기존 결제 흐름을 유지하는 경우입니다. 표본 크기를 늘리면 제2종 오류가 줄어듭니다. 알파 임계값을 낮추면 제1종 오류는 줄지만 제2종 오류는 증가합니다.

Power BI 및 데이터 시각화 질문

시각화 질문은 지원자가 적절한 차트를 선택하고, 유지보수하기 쉬운 대시보드를 구축하며, 비기술 청중에게 데이터 스토리를 전달할 수 있는지를 평가합니다.

14. DAX란 무엇이며 SQL과 어떻게 다릅니까?

DAX(Data Analysis Expressions)는 Power BI, Analysis Services, Excel Power Pivot에서 사용되는 수식 언어입니다. 행 세트에 대해 연산하는 SQL과 달리, DAX는 슬라이서, 필터, 행 컨텍스트에 따라 동적으로 변하는 필터 컨텍스트 내에서 작동합니다. DAX의 CALCULATE 함수는 수식을 평가하기 전에 필터 컨텍스트를 수정하는데, 이는 SQL에 직접적으로 대응하는 개념이 없습니다.

15. 가져오기 모드와 DirectQuery의 차이를 설명해 주십시오

가져오기 모드는 데이터를 Power BI의 인메모리 엔진(VertiPaq)에 로드하여 빠른 쿼리 성능을 제공하지만 예약된 새로 고침이 필요합니다. DirectQuery는 원본 데이터베이스에 실시간으로 쿼리를 전송하여 데이터 최신성을 보장하지만 원본 시스템의 성능에 의존합니다. 2026년에는 Microsoft Fabric이 Direct Lake 모드를 도입했습니다. OneLake에서 Parquet 파일을 직접 읽어 가져오기나 SQL 엔드포인트 쿼리 없이 가져오기 모드의 속도와 거의 실시간 최신성을 결합합니다.

16. 막대 그래프와 꺾은선 그래프의 사용 구분

막대 그래프는 이산 범주를 비교합니다(지역별 매출, 제품별 건수). 꺾은선 그래프는 연속적인 시간 간격에 걸친 추세를 나타냅니다(일별 활성 사용자, 월별 이탈률). 범주형 데이터에 꺾은선 그래프를 사용하면 관련 없는 범주 사이에 추세가 있는 것처럼 보여 청중을 오도합니다. 면접에서는 원형 차트에 대한 후속 질문도 흔합니다. 원형 차트는 전체 중 부분을 나타낼 때 사용하되, 슬라이스를 5개 이하로 제한해야 합니다. 인간의 눈은 각도를 정확히 비교하는 데 어려움을 겪기 때문입니다.

17. 느린 Power BI 리포트를 최적화하는 방법

느린 리포트는 일반적으로 데이터 모델의 과도한 컬럼, 행별로 평가되는 복잡한 DAX 측정값, 수백만 행을 쿼리하는 비주얼에서 기인합니다. 최적화 체크리스트에는 미사용 컬럼 제거를 통한 모델 크기 축소, 이터레이터 함수(SUMX, FILTER)의 가능한 한 비이터레이터 버전으로의 교체, 페이지당 비주얼 수를 15개 미만으로 축소, 높은 카디널리티 차원에 대한 집계 테이블 사용이 포함됩니다. Power BI Desktop에 내장된 성능 분석기가 병목이 되는 비주얼이나 DAX 쿼리를 정확히 파악합니다.

행동 면접 및 케이스 스터디 질문

기술 역량은 면접 기회를 얻게 해 줍니다. 행동 면접 질문이 최종 합격 여부를 결정합니다. 모든 답변은 STAR 프레임워크(Situation, Task, Action, Result)를 따라야 합니다.

18. 데이터 분석이 비즈니스 의사결정을 바꾼 경험을 설명해 주십시오

강한 답변에는 변동한 구체적인 지표, 사용한 분석 방법, 금액 또는 백분율로 표현된 영향이 포함됩니다. 약한 답변은 성과와 연결하지 않고 대시보드만 설명합니다. 답변 구조 예시: "SaaS 제품의 이탈 분석 결과, 48시간 이내에 온보딩을 완료하지 않은 사용자의 30일 이탈률이 60% 더 높다는 것이 밝혀졌습니다. 프로덕트팀이 24시간 시점에 트리거되는 자동 이메일 시퀀스를 추가하여 30일 이탈률을 8%p 감소시켰습니다."

19. 이해관계자들의 상충되는 데이터 요청에 어떻게 대처합니까?

이 질문은 우선순위 설정과 커뮤니케이션 능력을 테스트합니다. 권장 접근법은 다음과 같습니다: 각 요청 뒤에 있는 비즈니스 질문을 명확히 하고, 공유 지표를 식별하며, 양쪽의 니즈를 충족하는 단일 대시보드를 제안하고, 트레이드오프를 투명하게 문서화합니다. 데이터 거버넌스 우려나 리소스 제약으로 뒷받침되는 경우, 대안을 제시한 후 이해관계자에게 거절하는 것도 허용됩니다.

20. 비기술 청중에게 복잡한 분석을 설명해 주십시오

면접관은 회귀 분석이나 코호트 분석과 같은 개념을 마케팅 매니저에게 설명하듯이 말할 것을 요청하는 경우가 많습니다. 최고의 답변은 비유를 사용하고, 전문 용어를 피하며, 설명을 비즈니스 성과에 연결합니다. "코호트 분석은 고객을 가입한 월별로 그룹화하여 3개월 후에 여전히 활성 상태인 인원을 추적합니다. 이 차트는 1월 가입자가 2월 가입자보다 리텐션이 더 좋다는 것을 보여주며, 이는 12월 말에 적용된 온보딩 개선과 일치합니다."

STAR 프레임워크 참고

Situation: 상황을 설정합니다. Task: 목표를 정의합니다. Action: 수행한 구체적인 단계를 설명합니다. Result: 영향을 정량화합니다. 면접관은 Result(결과) 단계를 생략하는 모호한 답변에 감점합니다.

데이터 클리닝 및 ETL 면접 질문

데이터 품질 문제는 분석가의 업무 시간 중 상당 부분을 차지합니다. 이 질문들은 실무 데이터 랭글링 능력을 테스트합니다.

21. ETL 파이프라인 실행 후 데이터를 검증하는 방법

검증 체크는 행 수(소스 대 목적지), 주요 컬럼의 null 비율, 테이블 간 참조 무결성, 값 분포 변화(사일런트 스키마 변경 감지)를 다루어야 합니다. 파이프라인 실행 후 매번 실행되는 자동화된 체크를 통해 잘못된 데이터가 대시보드에 도달하는 것을 방지합니다.

python

# etl_validation.py
import pandas as pd

def validate_pipeline(source_df: pd.DataFrame, target_df: pd.DataFrame) -> dict:
    checks = {}
    # Row count match
    checks['row_count_match'] = len(source_df) == len(target_df)
    # Null rate on critical columns
    for col in ['user_id', 'event_date', 'amount']:
        null_rate = target_df[col].isnull().mean()
        checks[f'{col}_null_rate'] = round(null_rate, 4)
    # Revenue reconciliation
    source_total = source_df['amount'].sum()
    target_total = target_df['amount'].sum()
    checks['revenue_diff_pct'] = round(
        abs(source_total - target_total) / source_total * 100, 2
    )
    return checks

results = validate_pipeline(source, target)
for check, value in results.items():
    print(f'{check}: {value}')

이 함수는 알림 시스템에 입력할 수 있는 검증 결과 딕셔너리를 반환합니다. 매출 차이가 0.01%를 초과하면 조사를 시작해야 합니다.

22. 정규화 데이터와 비정규화 데이터의 차이는 무엇입니까?

정규화 데이터는 관련 테이블에 정보를 분할하여 중복을 최소화합니다(제3정규형). 비정규화 데이터는 읽기 중심의 분석 쿼리에 최적화된 더 넓고 평평한 구조로 테이블을 결합합니다. OLTP 시스템은 데이터 무결성을 위해 정규화를 선호합니다. 데이터 웨어하우스와 BI 도구는 쿼리 속도를 위해 비정규화(스타 스키마, 스노우플레이크 스키마)를 선호합니다. 이 트레이드오프를 이해하는 것은 효율적인 데이터 파이프라인 설계에 필수적입니다.

고급 애널리틱스 질문

시니어 직급에서는 실험, 예측, 부서 간 데이터 전략에 대한 이해가 요구됩니다.

23. A/B 테스트를 처음부터 설계하는 방법

A/B 테스트에는 5가지 구성 요소가 필요합니다: 명확한 가설("CTA 버튼 색상을 회색에서 녹색으로 변경하면 클릭률이 5% 향상될 것이다"), 주요 지표(클릭률), 기대 효과 크기와 원하는 검정력(일반적으로 80%)에 기반한 표본 크기 계산, 대조군과 처치군으로의 사용자 무작위 배정, 그리고 주간 계절성을 고려한 사전 설정된 테스트 기간입니다. 최소 2개의 완전한 비즈니스 사이클 동안 테스트를 실행하면 요일 편향으로 인한 결과 왜곡을 방지할 수 있습니다.

A/B 테스트의 흔한 실수

통계적 유의성에 도달하기 전에 결과를 확인하면 위양성률이 팽창합니다. 테스트 시작 전에 분석 계획, 표본 크기, 기간을 사전 등록해야 합니다.

24. 퍼널 분석과 가장 중요한 이탈 지점에 대한 설명

퍼널 분석은 일련의 단계(홈페이지 방문, 상품 조회, 장바구니 추가, 결제, 구매 등)를 통한 사용자 진행을 추적합니다. 가장 큰 영향을 미치는 최적화는 가장 큰 비율 감소가 아닌 가장 큰 절대 수 감소가 있는 단계를 대상으로 합니다. 상품 조회 1,000명에서 장바구니 추가 600명으로의 40% 감소는 400명의 손실입니다. 결제 100명에서 구매 50명으로의 50% 감소는 50명의 손실에 불과합니다. 첫 번째 병목을 우선시하면 더 많은 총 전환을 얻을 수 있습니다.

25. 이해관계자가 실제로 사용하는 KPI 대시보드 구축 방법

대시보드는 계층 구조 없이 너무 많은 지표를 표시하면 실패합니다. 효과적인 KPI 대시보드는 역피라미드 구조를 따릅니다: 최상단에 1~2개의 핵심 지표(월간 반복 매출, 순추천지수 등), 중간에 지원 지표(전환율, 이탈률, 평균 주문 금액), 드릴다운으로 접근 가능한 진단 세부 정보를 배치합니다. 최상위 뷰를 7개 이하의 지표로 제한하면 인지 부하를 줄일 수 있습니다. 자동 주석 추가("3월 5일 결제 게이트웨이 장애로 인해 매출 12% 감소")는 원시 숫자에 없는 맥락을 제공합니다.

연습을 시작하세요!

면접 시뮬레이터와 기술 테스트로 지식을 테스트하세요.

무료 계정 만들기

결론

SQL 윈도우 함수, CTE, 코호트 쿼리는 거의 모든 데이터 분석가 기술 면접에 등장합니다. 이를 기억에서 바로 작성할 수 있는 것은 기본적인 기대 사항입니다.
Python Pandas 숙련도는 애드혹 분석 작업의 80%를 커버합니다. merge, groupby, transform, null 처리에 집중하는 것이 좋습니다.
통계적 추론(p-값, 상관 vs. 인과, 실험 설계)은 숫자를 보고하기만 하는 분석가와 올바르게 해석하는 분석가를 구분합니다.
Power BI와 시각화 질문은 차트 선택, DAX 기초, 대시보드 성능 최적화를 테스트합니다.
STAR 프레임워크를 따르고 정량화된 결과를 포함하는 행동 면접 답변이 모호한 서술보다 뛰어난 평가를 받습니다.
SharpSkill에서 데이터 애널리틱스 면접 모듈 연습하기에서 타이머가 있는 연습으로 이 개념들을 훈련할 수 있습니다.
관련 준비로, 데이터 사이언스 면접 가이드가 시니어 데이터 분석가 직군과 겹치는 머신 러닝 및 통계 모델링 질문을 다루고 있습니다.

연습을 시작하세요!

면접 시뮬레이터와 기술 테스트로 지식을 테스트하세요.

무료 계정 만들기

데이터 분석가 면접의 SQL 질문

1. WHERE와 HAVING의 차이점을 설명해 주십시오

2. 윈도우 함수를 실제 예시와 함께 설명해 주십시오

3. 중복 레코드를 식별하고 제거하는 방법을 설명해 주십시오

4. 주간 코호트별 리텐션을 계산하는 쿼리를 작성해 주십시오

5. CTE란 무엇이며, 서브쿼리 대신 언제 사용해야 합니까?

Python 데이터 분석 면접 질문

6. Pandas DataFrame에서 결측값을 처리하는 방법을 설명해 주십시오

7. merge, join, concatenate: 각각의 사용 시점

8. 매출 데이터의 그룹화, 집계 및 변환

9. 데이터셋에서 이상치를 감지하고 처리하는 방법

Data Analytics 면접 준비가 되셨나요?

통계 및 확률 질문

10. p-값을 쉬운 말로 설명해 주십시오

11. 평균값 대신 중앙값을 사용해야 하는 경우는 언제입니까?

12. 상관관계와 인과관계의 차이를 설명해 주십시오

13. 제1종 오류와 제2종 오류를 비즈니스 예시로 설명해 주십시오

Power BI 및 데이터 시각화 질문

14. DAX란 무엇이며 SQL과 어떻게 다릅니까?

15. 가져오기 모드와 DirectQuery의 차이를 설명해 주십시오

16. 막대 그래프와 꺾은선 그래프의 사용 구분

17. 느린 Power BI 리포트를 최적화하는 방법

행동 면접 및 케이스 스터디 질문

18. 데이터 분석이 비즈니스 의사결정을 바꾼 경험을 설명해 주십시오

19. 이해관계자들의 상충되는 데이터 요청에 어떻게 대처합니까?

20. 비기술 청중에게 복잡한 분석을 설명해 주십시오

데이터 클리닝 및 ETL 면접 질문

21. ETL 파이프라인 실행 후 데이터를 검증하는 방법

22. 정규화 데이터와 비정규화 데이터의 차이는 무엇입니까?

고급 애널리틱스 질문

23. A/B 테스트를 처음부터 설계하는 방법

24. 퍼널 분석과 가장 중요한 이탈 지점에 대한 설명

25. 이해관계자가 실제로 사용하는 KPI 대시보드 구축 방법

연습을 시작하세요!

결론

연습을 시작하세요!

관련 기사

Pandas 3.0 완벽 가이드(2026): 새로운 API, 주요 변경사항, 면접 질문 총정리

데이터 분석가를 위한 SQL: 윈도우 함수, CTE, 고급 쿼리 기법

Python 데이터 분석: Matplotlib과 Seaborn을 활용한 데이터 시각화 면접 가이드