Data Analytics

記述統計

平均値と中央値、分散、標準偏差、正規分布、歪度、相関と因果、サンプリングバイアス、パーセンタイル

20 面接問題·
Junior
1

ソートされたデータセットを等しい2つの半分に分割する値を表す中心傾向の尺度はどれですか?

回答

中央値は昇順にソートされたデータセットの中央の値です。下位50%の値と上位50%の値を正確に分けます。平均値とは異なり、中央値は極端な値の影響を受けないため、所得や不動産価格のような歪んだ分布に対してより堅牢な指標となります。

2

平均値と中央値の根本的な違いは何ですか?

回答

平均値はすべての値を考慮するため極端な値(外れ値)の影響を受けますが、中央値はソートされたデータの中央位置のみに依存します。例えば、5つの給与が30k、35k、40k、45k、500kの場合、平均は500kによって上方に引き上げられ(130k)ますが、中央値は40kのままで、グループの実態をより良く反映します。

3

データセットにおける最頻値とは何ですか?

回答

最頻値はデータセット内で最も頻繁に出現する値です。データセットは単峰性(1つの最頻値)、双峰性(2つの最頻値)、または多峰性(複数の最頻値)になり得ます。最頻値は、好きな色や最も売れている製品カテゴリなど、カテゴリカルデータで使用できる唯一の中心傾向の尺度です。

4

データセットにおいて分散は何を測定しますか?

5

分散と標準偏差の関係は何ですか?

+17 面接問題

次の面接に向けてData Analyticsをマスター

すべての問題、flashcards、技術テスト、コードレビュー演習、面接シミュレーターにアクセス。

無料で始める