Data Science & ML

記述統計

平均、中央値、標準偏差、四分位数、分布、相関、外れ値、歪度

20 面接問題·
Mid-Level
1

極端な値(外れ値)を含むデータに最も適した中心傾向の尺度はどれですか?

回答

中央値は外れ値に対して最もロバストな中心傾向の尺度です。ソートされたデータの中央値を表し、極端な値の影響を受けないからです。すべての値を合計する平均とは異なり、中央値は位置のみを考慮します。例えば、数人の高給取りの幹部がいる企業の給与の場合、中央値は平均よりも典型的な給与をより適切に表します。

2

データセットの分散とは何ですか?

回答

分散は、データの平均周辺の散らばりを測定します。平均からの偏差の二乗の平均として計算されます。二乗することで常に正の値が得られ、平均から遠い値の影響を増幅します。分散の単位は元のデータ単位の二乗であるため、元の単位で散らばりを解釈するために標準偏差(分散の平方根)がよく使われます。

3

標準偏差と分散の関係は何ですか?

回答

標準偏差は分散の平方根です。この変換により、散らばりの尺度が元のデータ単位に戻り、解釈が容易になります。例えば、データがユーロ単位の場合、分散はユーロの二乗単位(解釈が困難)になりますが、標準偏差はユーロ単位になります。したがって、データの散らばりを直感的に伝えるには標準偏差が好まれます。

4

分布の第1四分位数(Q1)は何を表しますか?

5

Pearson相関係数が-0.85の場合、どのように解釈しますか?

+17 面接問題

次の面接に向けてData Science & MLをマスター

すべての問題、flashcards、技術テスト、コードレビュー演習、面接シミュレーターにアクセス。

無料で始める