Data Analytics

Data Cleaning - データクレンジング

欠損値、重複、外れ値、ビジネスルール、変換、データ品質

20 面接問題·
Junior
1

データセットにおける欠損値(missing value)とは何ですか?

回答

欠損値は、フィールドに存在しないか入力されていないデータを表します。空のセル、データベースのNULL、またはDataFrameのNaNとして現れることがあります。欠損値の特定は、統計分析や集計を歪める可能性があるため、データクレンジングの最初のステップとなります。

2

データベースにおけるNULL値と空文字列の違いは何ですか?

回答

NULLは値が不明または存在しないことを意味し、空文字列はたまたま空である既知の値です。この区別はSQLにおいて基本的であり、NULLは=演算子で比較できず(IS NULLを使用する必要がある)、空文字列は= ''で通常通り比較できます。

3

データセットにおける重複(duplicate)とは何ですか?

回答

重複とは、データセット内で複数回出現するレコードであり、完全一致(すべての列が同一)または部分一致(特定のキー列が同一)の場合があります。重複はカウント、合計、平均を歪めます。その検出は通常、一意であるべきキー列を特定することに依存します。

4

SQLで完全な重複を検出するための技術はどれですか?

5

データセットにおける外れ値(outlier)とは何ですか?

+17 面接問題

次の面接に向けてData Analyticsをマスター

すべての問題、flashcards、技術テスト、コードレビュー演習、面接シミュレーターにアクセス。

無料で始める