Data Analytics

Data Cleaning - 데이터 정제

결측값, 중복, 이상치, 비즈니스 규칙, 변환, 데이터 품질

20 면접 질문·
Junior
1

데이터셋에서 결측값(missing value)이란 무엇입니까?

답변

결측값은 필드에 부재하거나 입력되지 않은 데이터를 나타냅니다. 빈 셀, 데이터베이스의 NULL 또는 DataFrame의 NaN으로 나타날 수 있습니다. 결측값을 식별하는 것은 통계 분석과 집계를 왜곡할 수 있기 때문에 데이터 정제의 첫 번째 단계입니다.

2

데이터베이스에서 NULL 값과 빈 문자열의 차이점은 무엇입니까?

답변

NULL은 값이 알려지지 않았거나 존재하지 않음을 의미하는 반면, 빈 문자열은 비어 있는 알려진 값입니다. 이 구분은 SQL에서 기본적이며, NULL은 = 연산자로 비교할 수 없고(IS NULL을 사용해야 함), 빈 문자열은 = ''로 정상적으로 비교할 수 있습니다.

3

데이터셋에서 중복(duplicate)이란 무엇입니까?

답변

중복은 데이터셋에 두 번 이상 나타나는 레코드로, 정확하게(모든 컬럼이 동일) 또는 부분적으로(특정 키 컬럼이 동일) 발생합니다. 중복은 카운트, 합계, 평균을 왜곡합니다. 이를 감지하려면 일반적으로 고유해야 하는 키 컬럼을 식별합니다.

4

SQL에서 정확한 중복을 감지하는 기법은 무엇입니까?

5

데이터셋에서 이상치(outlier)란 무엇입니까?

+17 면접 질문

다음 면접을 위해 Data Analytics을 마스터하세요

모든 질문, flashcards, 기술 테스트, 코드 리뷰 연습, 면접 시뮬레이터에 접근하세요.

무료로 시작하기