Question 1

データセットにおける欠損値（missing value）とは何ですか？

Accepted Answer

欠損値は、フィールドに存在しないか入力されていないデータを表します。空のセル、データベースのNULL、またはDataFrameのNaNとして現れることがあります。欠損値の特定は、統計分析や集計を歪める可能性があるため、データクレンジングの最初のステップとなります。

Question 2

データベースにおけるNULL値と空文字列の違いは何ですか？

Accepted Answer

NULLは値が不明または存在しないことを意味し、空文字列はたまたま空である既知の値です。この区別はSQLにおいて基本的であり、NULLは=演算子で比較できず（IS NULLを使用する必要がある）、空文字列は= ''で通常通り比較できます。

Question 3

データセットにおける重複（duplicate）とは何ですか？

Accepted Answer

重複とは、データセット内で複数回出現するレコードであり、完全一致（すべての列が同一）または部分一致（特定のキー列が同一）の場合があります。重複はカウント、合計、平均を歪めます。その検出は通常、一意であるべきキー列を特定することに依存します。

Data Cleaning - データクレンジング

その他のData Analytics面接トピック