Data Science & ML

기술 통계

평균, 중앙값, 표준편차, 사분위수, 분포, 상관관계, 이상치, 왜도

20 면접 질문·
Mid-Level
1

극단값(이상치)을 포함하는 데이터에 가장 적합한 중심 경향성 척도는 무엇입니까?

답변

중앙값은 정렬된 데이터의 중간값을 나타내며 극단값의 영향을 받지 않기 때문에 이상치에 가장 강건한 중심 경향성 척도입니다. 모든 값을 합산하는 평균과 달리 중앙값은 위치만을 고려합니다. 예를 들어, 몇몇 고액 연봉 임원이 있는 회사의 급여의 경우, 중앙값이 평균보다 일반적인 급여를 더 잘 나타냅니다.

2

데이터셋의 분산이란 무엇입니까?

답변

분산은 데이터가 평균을 중심으로 얼마나 흩어져 있는지를 측정합니다. 평균으로부터의 편차의 제곱의 평균으로 계산됩니다. 제곱함으로써 항상 양수 값을 얻고 평균에서 멀리 떨어진 값의 영향을 증폭시킵니다. 분산의 단위는 원래 데이터 단위의 제곱이므로, 원래 단위로 분산을 해석하기 위해 종종 표준편차(분산의 제곱근)를 사용합니다.

3

표준편차와 분산 사이의 관계는 무엇입니까?

답변

표준편차는 분산의 제곱근입니다. 이 변환은 분산 측정값을 원래 데이터 단위로 되돌려 해석을 더 쉽게 만듭니다. 예를 들어 데이터가 유로 단위라면 분산은 유로 제곱 단위(해석하기 어려움)인 반면 표준편차는 유로 단위가 됩니다. 따라서 데이터의 분산을 직관적으로 전달하기 위해 표준편차가 선호됩니다.

4

분포의 제1사분위수(Q1)는 무엇을 나타냅니까?

5

Pearson 상관계수가 -0.85일 때 어떻게 해석합니까?

+17 면접 질문

다음 면접을 위해 Data Science & ML을 마스터하세요

모든 질문, flashcards, 기술 테스트, 코드 리뷰 연습, 면접 시뮬레이터에 접근하세요.

무료로 시작하기