外れ値を見つける統計手法!IQR法とZスコア法を初心者向けに解説|統計自主学習④

はじめに

データ分析をしていると、「なんだか極端な値があるな」と感じることがあります。
こうした外れ値は、分析結果に大きな影響を与えることもあるため、できるだけ早い段階で発見して対応することが重要です。

では、外れ値はどのように見つければよいのでしょうか?

この記事では、代表的な外れ値検出方法である
「IQR法(四分位範囲を使う方法)」「Zスコア法(標準偏差を使う方法)」について、
基本からわかりやすく解説していきます。

🔹 統計自主学習シリーズまとめページはこちら
【初心者向け】統計自主学習シリーズまとめ


そもそも外れ値を「統計的に検出する」とは?

外れ値を見つける際に、「なんとなくこの値は変だ」と感覚に頼るのは危険です。

統計的に検出するとは、客観的な基準をもとに「この値は外れ値かどうか」を判断することを意味します。
これによって、恣意的なデータ操作を防ぎ、分析の信頼性を高めることができます。


IQR法(四分位範囲を使った方法)

IQRとは?

IQR(Interquartile Range)とは、データの第3四分位数(Q3)と第1四分位数(Q1)の差です。
つまり、データの中央50%がどれだけ広がっているかを示す指標です。

IQR = Q3−Q1

IQR法による外れ値の基準

IQRを使う場合、一般的に次の基準で外れ値を判定します。

  • 下限:Q1−1.5×IQR – 1.5 より小さい値
  • 上限:Q3+1.5×IQR + 1.5 より大きい値

この範囲を超えているデータは、外れ値とみなすことが多いです。

例:

あるデータセットで

  • Q1 = 25
  • Q3 = 75

なら、IQRは 75 − 25 = 50 になります。
このとき、

  • 下限 = 25 − (1.5 × 50) = −50
  • 上限 = 75 + (1.5 × 50) = 150

つまり、−50より小さいか150より大きいデータが外れ値ということになります。

IQR法の特徴

  • 非正規分布でも使える
  • 外れ値に引っ張られにくい(中央値ベースのため)

⇒ 特に「データが偏っている」「分布が歪んでいる」場合に適しています。

「正規分布とは?現実世界と機械学習での使われ方・特徴をやさしく解説」


Zスコア法(標準偏差を使った方法)

Zスコアとは?

Zスコア(標準得点)とは、あるデータの値が「平均からどれくらい離れているか」を表す指標です。
しかも、その離れ具合を「標準偏差」という単位で測っています。

数式は次のように表されます。 Z = (X-μ)/σ

ここで、

σ は、データ全体の標準偏差(データのばらつきの大きさ)

X は、調べたい個々のデータの値

μ は、データ全体の平均値

つまり、Zスコアが大きいほど「平均から極端に離れた値」ということになります。

Zスコア法による外れ値の基準

通常、Zスコアが

  • ±2を超える場合 → やや外れたデータ
  • ±3を超える場合 → 外れ値と判断されることが多いです。

例:

テストの平均点が70点、標準偏差が10点だったとします。
このとき、Zスコアで±3の範囲は、

  • 下限:70 − (3×10) = 40点
  • 上限:70 + (3×10) = 100点

つまり、40点未満または100点超えの点数は、外れ値とみなされる可能性があります。

Zスコア法の特徴

  • データが正規分布に近い場合に強力
  • 平均と標準偏差が外れ値の影響を受けやすい

⇒ 正規分布に近いデータに適用するのが基本です。歪んだ分布には注意が必要です。

「正規分布とは?現実世界と機械学習での使われ方・特徴をやさしく解説」


どちらを使えばいい?

データの特徴おすすめの方法
分布が歪んでいる、外れ値に敏感になりたくないIQR法
データが正規分布に近い、標準偏差を基準に考えたいZスコア法

【注意点・補足】

外れ値は必ずしも「間違ったデータ」や「削除すべき値」とは限りません。分析の目的やデータの背景を考慮し、外れ値の扱いを慎重に判断しましょう。

まとめ

外れ値を正しく見つけるためには、統計的な基準に基づいて冷静に判断することが大切です。

  • IQR法は四分位数ベースで、外れ値に頑強な検出方法
  • Zスコア法は平均・標準偏差を基にして、正規分布に適した検出方法

データの性質に応じて使い分けることで、より正確で信頼できるデータ分析を実現することができます。

外れ値の検出は、単なるデータクリーニングではなく、データの深い理解への第一歩です。
ぜひ、自分の分析テーマに合った方法を選んで活用してみてください。

以下はIQR法やZスコア法の実行方法やその結果について書いてます。

【Pythonで外れ値検出】IQR法とZスコア法を実装して実データで試してみた|統計自主学習補足

【あわせて読みたい】

🔹 次におすすめの記事
「相関係数の正しい読み解き方|因果関係との違いもスッキリ理解」

🔹 関連記事

「データを正しく扱う第一歩!量的データ・質的データの基礎知識」

「基本統計量をマスター!平均・中央値・最頻値・散・標準偏差を実例でわかりやすく解説」

主要6モデルをやさしく解説!線形回帰・ロジスティック回帰・KNN・SVM・決定木・ランダムフォレストとは?

「正規分布とは?現実世界と機械学習での使われ方・特徴をやさしく解説」

🔹 統計自主学習シリーズまとめページはこちら
【初心者向け】統計自主学習シリーズまとめ

コメント

タイトルとURLをコピーしました