はじめに
データ分析をしていると、「なんだか極端な値があるな」と感じることがあります。
こうした外れ値は、分析結果に大きな影響を与えることもあるため、できるだけ早い段階で発見して対応することが重要です。
では、外れ値はどのように見つければよいのでしょうか?
この記事では、代表的な外れ値検出方法である
「IQR法(四分位範囲を使う方法)」と「Zスコア法(標準偏差を使う方法)」について、
基本からわかりやすく解説していきます。
🔹 統計自主学習シリーズまとめページはこちら
▶【初心者向け】統計自主学習シリーズまとめ
そもそも外れ値を「統計的に検出する」とは?
外れ値を見つける際に、「なんとなくこの値は変だ」と感覚に頼るのは危険です。
統計的に検出するとは、客観的な基準をもとに「この値は外れ値かどうか」を判断することを意味します。
これによって、恣意的なデータ操作を防ぎ、分析の信頼性を高めることができます。
IQR法(四分位範囲を使った方法)
IQRとは?
IQR(Interquartile Range)とは、データの第3四分位数(Q3)と第1四分位数(Q1)の差です。
つまり、データの中央50%がどれだけ広がっているかを示す指標です。
IQR = Q3−Q1
IQR法による外れ値の基準
IQRを使う場合、一般的に次の基準で外れ値を判定します。
- 下限:Q1−1.5×IQR – 1.5 より小さい値
- 上限:Q3+1.5×IQR + 1.5 より大きい値
この範囲を超えているデータは、外れ値とみなすことが多いです。
例:
あるデータセットで
- Q1 = 25
- Q3 = 75
なら、IQRは 75 − 25 = 50 になります。
このとき、
- 下限 = 25 − (1.5 × 50) = −50
- 上限 = 75 + (1.5 × 50) = 150
つまり、−50より小さいか150より大きいデータが外れ値ということになります。
IQR法の特徴
- 非正規分布でも使える
- 外れ値に引っ張られにくい(中央値ベースのため)
⇒ 特に「データが偏っている」「分布が歪んでいる」場合に適しています。
「正規分布とは?現実世界と機械学習での使われ方・特徴をやさしく解説」
Zスコア法(標準偏差を使った方法)
Zスコアとは?
Zスコア(標準得点)とは、あるデータの値が「平均からどれくらい離れているか」を表す指標です。
しかも、その離れ具合を「標準偏差」という単位で測っています。
数式は次のように表されます。 Z = (X-μ)/σ
ここで、
σ は、データ全体の標準偏差(データのばらつきの大きさ)
X は、調べたい個々のデータの値
μ は、データ全体の平均値
つまり、Zスコアが大きいほど「平均から極端に離れた値」ということになります。
Zスコア法による外れ値の基準
通常、Zスコアが
- ±2を超える場合 → やや外れたデータ
- ±3を超える場合 → 外れ値と判断されることが多いです。
例:
テストの平均点が70点、標準偏差が10点だったとします。
このとき、Zスコアで±3の範囲は、
- 下限:70 − (3×10) = 40点
- 上限:70 + (3×10) = 100点
つまり、40点未満または100点超えの点数は、外れ値とみなされる可能性があります。
Zスコア法の特徴
- データが正規分布に近い場合に強力
- 平均と標準偏差が外れ値の影響を受けやすい
⇒ 正規分布に近いデータに適用するのが基本です。歪んだ分布には注意が必要です。
「正規分布とは?現実世界と機械学習での使われ方・特徴をやさしく解説」
どちらを使えばいい?
| データの特徴 | おすすめの方法 |
|---|---|
| 分布が歪んでいる、外れ値に敏感になりたくない | IQR法 |
| データが正規分布に近い、標準偏差を基準に考えたい | Zスコア法 |
【注意点・補足】
外れ値は必ずしも「間違ったデータ」や「削除すべき値」とは限りません。分析の目的やデータの背景を考慮し、外れ値の扱いを慎重に判断しましょう。
まとめ
外れ値を正しく見つけるためには、統計的な基準に基づいて冷静に判断することが大切です。
- IQR法は四分位数ベースで、外れ値に頑強な検出方法
- Zスコア法は平均・標準偏差を基にして、正規分布に適した検出方法
データの性質に応じて使い分けることで、より正確で信頼できるデータ分析を実現することができます。
外れ値の検出は、単なるデータクリーニングではなく、データの深い理解への第一歩です。
ぜひ、自分の分析テーマに合った方法を選んで活用してみてください。
以下はIQR法やZスコア法の実行方法やその結果について書いてます。
【Pythonで外れ値検出】IQR法とZスコア法を実装して実データで試してみた|統計自主学習補足
【あわせて読みたい】
🔹 次におすすめの記事
▶「相関係数の正しい読み解き方|因果関係との違いもスッキリ理解」
🔹 関連記事
▶「データを正しく扱う第一歩!量的データ・質的データの基礎知識」
▶「基本統計量をマスター!平均・中央値・最頻値・分散・標準偏差を実例でわかりやすく解説」
▶主要6モデルをやさしく解説!線形回帰・ロジスティック回帰・KNN・SVM・決定木・ランダムフォレストとは?
▶「正規分布とは?現実世界と機械学習での使われ方・特徴をやさしく解説」
🔹 統計自主学習シリーズまとめページはこちら
▶【初心者向け】統計自主学習シリーズまとめ

コメント