
Data Cleaning - 데이터 정제
결측값, 중복, 이상치, 비즈니스 규칙, 변환, 데이터 품질
20 면접 질문·
Junior
1데이터셋에서 결측값(missing value)이란 무엇입니까?
1
데이터셋에서 결측값(missing value)이란 무엇입니까?
답변
결측값은 필드에 부재하거나 입력되지 않은 데이터를 나타냅니다. 빈 셀, 데이터베이스의 NULL 또는 DataFrame의 NaN으로 나타날 수 있습니다. 결측값을 식별하는 것은 통계 분석과 집계를 왜곡할 수 있기 때문에 데이터 정제의 첫 번째 단계입니다.
2데이터베이스에서 NULL 값과 빈 문자열의 차이점은 무엇입니까?
2
데이터베이스에서 NULL 값과 빈 문자열의 차이점은 무엇입니까?
답변
NULL은 값이 알려지지 않았거나 존재하지 않음을 의미하는 반면, 빈 문자열은 비어 있는 알려진 값입니다. 이 구분은 SQL에서 기본적이며, NULL은 = 연산자로 비교할 수 없고(IS NULL을 사용해야 함), 빈 문자열은 = ''로 정상적으로 비교할 수 있습니다.
3데이터셋에서 중복(duplicate)이란 무엇입니까?
3
데이터셋에서 중복(duplicate)이란 무엇입니까?
답변
중복은 데이터셋에 두 번 이상 나타나는 레코드로, 정확하게(모든 컬럼이 동일) 또는 부분적으로(특정 키 컬럼이 동일) 발생합니다. 중복은 카운트, 합계, 평균을 왜곡합니다. 이를 감지하려면 일반적으로 고유해야 하는 키 컬럼을 식별합니다.
4
SQL에서 정확한 중복을 감지하는 기법은 무엇입니까?
5
데이터셋에서 이상치(outlier)란 무엇입니까?
+17 면접 질문
기타 Data Analytics 면접 주제
Google Sheets - 기초
Junior
20개 질문Google Sheets - 고급 수식
Junior
20개 질문SQL - 기초
Junior
25개 질문SQL - 집계 및 그룹화
Junior
20개 질문SQL - 조인
Junior
20개 질문BigQuery - 기초
Junior
20개 질문KPI 및 비즈니스 메트릭
Junior
20개 질문기술 통계
Junior
20개 질문Zapier와 No-Code 자동화
Junior
20개 질문데이터 시각화 원칙
Junior
20개 질문Python & Pandas - 기초
Junior
20개 질문Google Sheets - 자동화된 대시보드
Mid-Level
20개 질문SQL - 서브쿼리와 CTE
Mid-Level
20개 질문SQL - Window Functions
Mid-Level
20개 질문BigQuery - 고급 기능
Mid-Level
20개 질문Data Modeling
Mid-Level
20개 질문퍼널 및 전환 분석
Mid-Level
20개 질문코호트 및 리텐션 분석
Mid-Level
20개 질문Google Tag Manager 및 트래킹
Mid-Level
20개 질문API와 웹훅
Mid-Level
20개 질문dbt - 기초
Mid-Level
20개 질문AB 테스트와 응용 통계학
Mid-Level
20개 질문Looker Studio (Google Data Studio)
Mid-Level
20개 질문Power BI - 기초
Mid-Level
20개 질문SQL - 고급 분석 쿼리
Senior
20개 질문dbt - 고급 기능
Senior
20개 질문Power BI - DAX 및 고급 대시보드
Senior
20개 질문Python Analytics - 고급 분석 및 ML
Senior
20개 질문