【箱ひげ図とは】データのばらつきを一目で把握する方法|統計自主学習②

箱ひげ図 読み方|外れ値や分布をパッと理解する方法

はじめに

データを分析する際、「平均」や「中央値」といった代表値だけでは、全体のばらつきや極端な値(外れ値)までは見えてきません。

そんなときに役立つのが箱ひげ図(Box plot)です。
箱ひげ図を使えば、データの分布や広がり、外れ値の存在まで、ひと目で直感的に把握することができます。

この記事では、箱ひげ図の基本構造から読み方、実際の活用シーンまでわかりやすく解説していきます。

🔹 統計自主学習シリーズまとめページはこちら
【初心者向け】統計自主学習シリーズまとめ

箱ひげ図とは?

箱ひげ図は、データのばらつき外れ値を視覚的に表現するためのグラフです。
データをまとめる5つの代表値(最小値・第1四分位数・中央値・第3四分位数・最大値)を使って描かれます。

図のイメージ:

箱ひげ図イメージ画像

このように、中心には箱(Box)があり、その左右に「ひげ」と呼ばれる線が伸びています。

箱ひげ図の各部の意味

  • 第1四分位数(Q1)
     データの下位25%の境界。全体の1/4の位置にあたる値です。
  • 中央値(Q2)
     データを並べたとき、ちょうど真ん中にくる値です。
  • 第3四分位数(Q3)
     データの上位25%の境界。全体の3/4の位置にあたる値です。
  • 箱(Box)
     Q1からQ3までを結ぶ範囲。データの「中央50%」がこの箱の中に収まっています。
  • ひげ(Whisker)
     通常は「箱の外にあるデータのうち、極端すぎない範囲」の最大・最小値を示します。
     ひげの定義は多少異なりますが、よく使われるルールでは、Q1−1.5×四分位範囲(IQR)より小さい値、またはQ3+1.5×IQRより大きい値は外れ値とみなされ、別途点でプロットされます。

箱ひげ図の読み方

箱ひげ図を見るときは、次のポイントに注目しましょう。

観察ポイントと読み取れること

箱の位置:データの中心傾向(中央値)がどこにあるのか

箱の幅:データのばらつき具合

ひげの長さ:全体の広がりや極端な値

外れ値の有無:異常な値や極端な観測値の存在

たとえば、箱の左側が長く伸びていれば、「低い側にばらつきが大きい(左に裾が広がっている)」ことを示します。
逆に右側が長ければ、「高い側にばらつきが大きい」ことを意味します。

箱ひげ図の具体例と図解

箱ひげ図は、データの分布やばらつきを一目で把握できるグラフです。箱とひげ(線)で構成され、最小値・最大値・中央値・四分位数などの情報を示します。

具体例:あるクラスのテスト点数

以下は、9人の生徒のテスト点数です。

生徒点数
Aさん80点
Bさん76点
Cさん55点
Dさん62点
Eさん92点
Fさん78点
Gさん58点
Hさん65点
Iさん88点

このデータをもとに箱ひげ図を作成すると、以下のような特徴が見えてきます。

箱ひげ図の作成方法を示した図
  • 最小値(ひげの下端):55点(Cさんの点数)
  • 第1四分位数(箱の下辺):60点(下位25%の境目)
  • 中央値(箱の中の線):76点(データの真ん中の値)
  • 第3四分位数(箱の上辺):84点(上位25%の境目)
  • 最大値(ひげの上端):92点(Eさんの点数)
この箱ひげ図から分かること(例

55-60間が狭い → 55から60の間にデータが集中している。

データの範囲は55-92である。

最小値は55,中央値は76,最大値は92である。

箱ひげ図の活用シーン

箱ひげ図は、次のような場面で特に威力を発揮します。

  • 複数グループの比較
     たとえば、A社・B社・C社それぞれの売上データを並べて箱ひげ図にすれば、ばらつきや中央値の違いが一目瞭然になります。
  • 異常値の検出
     外れた点(外れ値)を発見するのに最適です。データクレンジングの際にも役立ちます。    →箱ひげ図を用いた外れ値の検出方法←
  • 分布の偏りを視覚化
     左右非対称な場合、どちらにデータが偏っているかがすぐにわかります。

まとめ

箱ひげ図は、データの広がりや偏り、外れ値を視覚的に把握するための非常に強力なツールです。

平均や中央値だけでは見落としがちな情報も、箱ひげ図なら一目で捉えることができます。
データの「中心」と「広がり」を同時に把握したいときには、ぜひ積極的に使ってみましょう。

データを深く理解するためには、単に数値を追うだけではなく、全体像を直感的に掴む視点もとても重要です!

【あわせて読みたい】

🔹 次におすすめの記事
外れ値を見つけた後にどう対応すべきか?

🔹 関連記事
「相関係数の正しい読み解き方|因果関係との違いもスッキリ理解」

「データを正しく扱う第一歩!量的データ・質的データの基礎知識」

「基本統計量をマスター!平均・中央値・最頻値・分散・標準偏差を実例でわかりやすく解説」

🔹 統計自主学習シリーズまとめページはこちら
【初心者向け】統計自主学習シリーズまとめ

コメント

タイトルとURLをコピーしました