【統計初心者向け】平均・中央値・最頻値・分散・標準偏差をまとめて解説|統計自主学習①

はじめに

統計の基本を押さえることは、データを正しく読み解く第一歩です。
本記事では、データの中心傾向を表す「平均値・中央値・最頻値」と、データのばらつきを示す「分散・標準偏差」について、初心者にもわかりやすく実例を交えながら解説します。

平均や中央値、標準偏差といった基本的な統計量は、学校のテスト結果からビジネスデータ分析に至るまで、あらゆる場面で使われる重要な指標です。
それぞれの意味、使い分け、注意点をしっかり理解することで、データを見る力が格段にアップします。

この記事を通じて、

  • 「平均」「中央値」「最頻値」の違いと使いどころ
  • 「分散」「標準偏差」の考え方と具体的な計算方法
    を一緒に学んでいきましょう!

🔹 統計自主学習シリーズまとめページはこちら
【初心者向け】統計自主学習シリーズまとめ

   目次

平均値,中央値,最頻値とは

  ↳相加平均

  ↳中央値

  ↳最頻値

分散,標準偏差とは

  ↳分散

    ↳母分散

    ↳標本分散

  ↳標準偏差

    ↳母標準偏差

    ↳標本標準偏差

・・・

平均値、中央値、最頻値とは

データの傾向を理解するために「平均」「中央値」「最頻値」の3つの指標があります。

データの性質に応じてどの指標を使用するかを見極める必要があります。

・・・

平均(Mean)

  • 定義: データの合計をデータの個数で割った値です。すべてのデータを均等に「平均化」したものと考えられます。
  •  
  • 使い方: データが比較的均一で、極端に大きい値や小さい値(外れ値)がない場合に、データ全体の中心的な値として適しています。
  •  
  • 例: テストの点数が70, 75, 80, 85, 90の場合、平均は(70 + 75 + 80 + 85 + 90)/ 5 = 80(点)です。

平均値だけで判断することが危険なこともある

平均値はデータ全体の合計を均等に割った値ですが、極端に大きい値や小さい値(外れ値)があると、その影響を強く受けてしまいます。たとえば、一部に高額な年収や価格が含まれる場合、平均値だけを見ると実際より高く(または低く)見えてしまうことがあります。このようなときは、中央値や最頻値もあわせて確認することで、より実態に近い傾向を把握できます

・・・

中央値(Median)

  • 定義: データを小さい順に並べたとき、真ん中にくる値です。データの個数が偶数の場合は、中央の2つの値の平均を取ります。
  •  
  • 使い方: データに外れ値がある場合や、データが偏っている場合に、代表値として適しています。
  •  
  • 例: データが70, 75, 80, 85, 90の場合、中央値は80です。もしデータが70, 75, 85, 90の場合、中央値は(75 + 85)/ 2 = 80になります。

・・・

・・・

最頻値(Mode)

  • 定義: データの中で最も頻繁に現れる値です。最頻値が1つでない場合もあり、複数の最頻値が存在することもあります。
  •  
  • 使い方: 特定の値が多く出現する場合、その値を代表値として考えることができます。
  •  
  • 例: データが70, 75, 80, 85, 70の場合、最頻値は70です。

・・・

・・・

分散,標準偏差とは

学校のテストの結果を見て、クラス全体の成績がどうだったかを知りたいとき、統計の考え方が役立ちます。

今回は、統計の基本である「標準偏差」と「分散」という2つの概念について、説明していきます。

これらの概念は、データのばらつきを知るためにとても重要です。

・・・

・・・

分散(Variance)

標本分散と母分散について例を挙げて説明します。高校数学で習う分散は母分散のことを表しています。

例)あなたのクラスには30人の生徒がいます。このクラスのテストの点数(5点満点)[1, 3, 5, 1, 3, 5, 1, 3, 5, 1, 3, 5, 1, 3, 5 , 1, 3, 5, 1, 3, 5, 1, 3, 5, 1, 3, 5, 1, 3, 5] を用いて分散を求めます。

母分散(母集団の分散)

  • 母集団: クラスの全員(30人)すべて。
  • 母分散の計算: クラス全員のテストの点数を使って、各点数がクラス全体の平均点からどれだけ離れているかを計算し、そのばらつきの平均を求めます。
  • 目的: クラス全体のばらつきを正確に表します。

例: クラス全員のテストの点数

[1, 3, 5, 1, 3, 5, 1, 3, 5, 1, 3, 5, 1, 3, 5 , 1, 3, 5, 1, 3, 5, 1, 3, 5, 1, 3, 5, 1, 3, 5]

を使って母分散を計算します。(平均3点)

  • 母分散は次のように計算されます:
  •   S² = 1/n×∑(x1-x2)²
  •   nは標本数,x1は各データ,x2はxの平均
    • 今回の例をもとに計算すると、
    •   {(1-3)²+(3-3)²+(5-3)²・・・×10}/30 = 80/30
    • ≒ 2.67(cm²)
  •   nは母数,x1は各データ,x2は母集団の平均
  • 特徴: 分散の単位は、元のデータの単位の二乗になります。例えば、データが「cm」であれば、分散は「平方センチメートル (cm²)」となります。

・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・

標本分散

  • 標本: クラスの一部(例えば、はじめの5人)のテストの点数[1, 3, 5, 1, 3]。
  • 標本分散の計算: クラスの一部(5人)の点数を使って、各点数がこの5人の平均点からどれだけ離れているかを計算し、そのばらつきの平均を求めます。ただし、全体を推測するためにデータの個数が少ないので、計算式に「n-1」を使用して補正します。
  • 目的: 少ないデータから母集団全体のばらつきを推測するため。
  • 標本分散は次のように計算されます:
  •   S² = ∑(x1-x2)²/(n-1)
  •   nは標本数,x1は各データ,x2は標本の平均
  • 特徴: 分散の単位は、元のデータの単位の二乗になります。例えば、データが「cm」であれば、分散は「平方センチメートル (cm²)」となります。

例: クラス全員ではなく、5人だけの点数 [1, 3, 5, 1, 3](平均2.6) を使って標本分散を計算します。このとき、5人の平均点を基に各点数のばらつきを求めます。

  • 定義: 分散は、データが平均からどれだけ離れているかの程度を表します。
  • 具体的には、各データ点と平均値との差を二乗し、それらの平均を取ったものです。
  • 計算式:
  • {(1-2.6)²+(3-2.6)²+(5-2.6)²+(1-2.6)²+(3-2.6)²}/4

    = 2.8

・・・

・・・

標準偏差(Standard Deviation)

  • 定義: 標準偏差は、分散の平方根を取ったものです。分散が「データのばらつきの度合い」を表すのに対し、標準偏差は「元のデータと同じ単位」でばらつきを表します。
  • 計算式:
    • 母標準偏差 = √母分散
    • 標本標準偏差 = √標本分散
  • 特徴: 標準偏差は、元のデータと同じ単位で表されるため、直感的に理解しやすく、データのばらつきを把握するのに便利です。

特徴と使い分け

指標特徴強み弱み使いどころ
平均値合計÷個数全体のバランス外れ値に弱い値のばらつきが少ない時
中央値中央の値外れ値に強い頻度を反映しにくい外れ値がある時
最頻値最も多い値典型的な値を示すデータ数が少ないと不安定特定値が多い時

まとめ

標準偏差と分散は、データのばらつきを知るために非常に役立つ統計のツールです。

これらを理解することで、学校のテストの結果や、スポーツの成績、さらには日常生活の様々な場面でデータをより深く理解できるようになります。

次にデータを見るときには、ぜひこの2つの概念を思い出してみてください。統計を学ぶことで、データから何が読み取れるのかがもっと楽しくなるはずです。

【あわせて読みたい】

🔹 次におすすめの記事
データの広がりを一目で把握!箱ひげ図の読み方と使い方

🔹 関連記事
「相関係数の正しい読み解き方|因果関係との違いもスッキリ理解」

「データを正しく扱う第一歩!量的データ・質的データの基礎知識」

🔹 統計自主学習シリーズまとめページはこちら
【初心者向け】統計自主学習シリーズまとめ | 趣味の小部屋

統計の基礎を体系的に学びたい方には

京都大学OCWの公開講義「エレベータのブザーは鳴るか―大学生のための統計学入門」がおすすめです。平均や分散、標準偏差などをストーリー仕立てで解説しており、初心者にも分かりやすい内容となっています。

コメント

タイトルとURLをコピーしました