正規分布とは?現実世界と機械学習での使われ方・特徴まとめ|統計自主学習⑦

・・・

・・・

はじめに

正規分布は、統計やデータ分析において非常に重要な概念です。

私たちが日常で観察する多くのデータ(例えば身長や試験の点数など)は、正規分布に近い形で分布しています。

正規分布はデータが平均値を中心に左右対称に広がる特徴を持ち、その形状は「ベルカーブ」とも呼ばれます。

この記事では、正規分布とは何か、その特徴や応用方法について説明します。

正規分布の基本を理解することで、データの解析や予測がより深く行えるようになります。

🔹 統計自主学習シリーズまとめページはこちら
【初心者向け】統計自主学習シリーズまとめ

・・・

・・・

・・・

正規分布とは

正規分布とは、データが平均値を中心に左右対称に広がる確率分布のことを指します。自然現象や社会現象を理解するための強力なツールであり、統計学の基礎でもあります。正規分布のグラフは、中央に位置する平均値を頂点とする左右対称のベル型の曲線で表され、その形状はデータの平均値(μ)と標準偏差(σ)によって決まります。標準偏差が小さいほど曲線は鋭くなり、大きいほど曲線は平たくなり、データのばらつきが表されます。

標準偏差が小さい → 曲線が鋭くなる(データのばらつきが小さい)

標準偏差が大きい → 曲線が広がる(データのばらつきが大きい)

正規分布図

こちらが正規分布を表す図です。平均(μ)が0、標準偏差(σ)が1の正規分布の形を示しています。

正規分布は、数多くの自然現象や社会現象をモデル化するために使用されます。

例えば、学校のテストの点数や人々の身長、血圧など、多くのデータセットが正規分布に従うことが知られています。

テストの点数に関して言えば、クラス全員の点数を集計したとき、平均点付近に多くの生徒が集まり、極端に高い点数や低い点数を取る生徒は少数派となります。これが正規分布の典型的な特徴です。

・・・

正規分布の性質

正規分布の重要な性質の一つに、「68-95-99.7の法則」があります。この法則は、データの約68%が平均値±標準偏差(σ)の範囲に収まり、95%が±2σ、99.7%が±3σの範囲に収まることを示しています。この性質を利用することで、データがどの程度ばらついているのか、また異常な値が存在するかどうかを評価することが可能です。

約68%のデータが平均±1σの範囲に収まる

約95%のデータが平均±2σの範囲に収まる

約99.7%のデータが平均±3σの範囲に収まる

この性質を活用すれば、データのばらつき具合や異常値の有無を簡単に把握することができます。

たとえば、全国模試の成績分析では、正規分布を前提に成績のばらつきを測定し、平均点からどれだけ成績が偏っているかを判断することが可能になります。

・・・

統計における正規分布

正規分布は、統計的な推定や検定においても非常に重要な役割を果たします。

例えば、製造業の品質管理では、製品の寸法や重量が正規分布に従うと仮定し、製品のばらつきを管理します。これにより、製品が仕様範囲内に収まる確率や、不良品の発生率を定量的に評価できます。

・・・

正規分布の実際の使用例

正規分布は、金融市場においても広く利用されています。

株価の変動は厳密には正規分布に従いませんが、日々の小さな価格変動を正規分布に近似することで、リスク管理やオプションの価格設定に活用されます。
過去データをもとに、株価の変動範囲を予測し、ポートフォリオのリスクを定量化する場面などで正規分布が応用されています。

・・・

機械学習における正規分布の重要性

正規分布は、機械学習アルゴリズムの設計・前提にも深く関わっています。

多くの機械学習モデルは、入力データや誤差項が正規分布に従うことを仮定しています。たとえば、線形回帰分析では、残差(誤差)が正規分布に従うことを前提にして推定や検定を行うため、正規性の確認はモデル精度の向上に直結します。

・・・

・・・

まとめ

正規分布は、データの中心傾向やばらつきを理解するための基本概念です。

多くの自然現象や社会現象が正規分布に近い形で現れるため、統計やデータ分析では、正規分布を前提にしたさまざまな手法が開発されています。

正規分布を正しく理解することで、データの特徴を深く把握し、異常値検出や予測精度向上に役立てることができるでしょう。
データ分析に取り組む上で、正規分布の知識は避けて通れない重要なステップとなります。

特徴内容
平均・中央値・最頻値が一致ベルカーブの中心が全て同じ値になる
左右対称平均値を中心に完全な対称形
標準偏差で山の形が決まる標準偏差が大きいほど平坦、小さいほど尖る
68-95-99.7の法則±1σに約68%、±2σに約95%、±3σに約99.7%のデータが収まる

【あわせて読みたい】

🔹 次におすすめの記事

正規性の検定とは?データの標準化・正規化もまとめてわかりやすく解説

🔹 関連記事
なぜ標準化・正規化でモデルの精度が上がるのか?実例と一緒に解説

主要6モデルをやさしく解説!線形回帰・ロジスティック回帰・KNN・SVM・決定木・ランダムフォレストとは?

「基本統計量をマスター!平均・中央値・最頻値・散・標準偏差を実例でわかりやすく解説」

データの広がりを一目で把握!箱ひげ図の読み方と使い方

🔹 統計自主学習シリーズまとめページはこちら
【初心者向け】統計自主学習シリーズまとめ

コメント

タイトルとURLをコピーしました