はじめに
データ分析や機械学習に取り組むとき、「このデータは正規分布に従っているだろうか?」という疑問が出てくることがあります。
また、アルゴリズムによっては、分析前にデータのスケールを揃えるために標準化や正規化を行う必要もあります。
この記事では、まず正規性の検定についてわかりやすく説明し、そのあとデータの標準化と正規化についてまとめて解説します。
データ前処理の重要な基礎知識として、ぜひ押さえておきましょう。
🔹 統計自主学習シリーズまとめページはこちら
▶【初心者向け】統計自主学習シリーズまとめ
正規性の検定とは?
正規性の検定が必要な理由
統計解析や機械学習の多くの手法は、データが正規分布に従うことを前提としています。
たとえば、線形回帰分析では「残差(誤差項)が正規分布すること」が仮定に含まれています。
もしこの仮定が大きく外れていると、
- 結果の信頼性が落ちる
- モデルの予測精度が低下する
などの問題が起きる可能性があります。
そのため、分析を始める前に「データが正規分布かどうか」チェックすることは非常に大切です。
正規性をチェックする代表的な方法
正規性を検定するには、次のような方法があります。
① グラフでざっくり確認する(視覚的チェック)
- ヒストグラム:山なりの左右対称な形(ベルカーブ)になっているかを見る
- QQプロット:理論上の正規分布とデータを比較し、一直線に並んでいれば正規分布とみなす
視覚的な方法は手軽ですが、正確さに限界があります。そこで、次に統計的な検定を行います。
② 統計的な検定を行う
- シャピロ・ウィルク検定(Shapiro-Wilk Test)
- 小規模データ向き。正規性を調べる定番の検定。
- コルモゴロフ・スミルノフ検定(K-S検定)
- サンプルが大きい場合にも対応可能だが、やや保守的(正規性を否定しやすい)。
- アンダーソン・ダーリング検定
- 尾(端っこ)の形状にも敏感に反応するため、細かいズレにも強い。
これらの検定では、p値(検定結果の指標)に注目します。
- p値が大きい(通常0.05以上) ➔ 正規分布であると考えてよい
- p値が小さい(通常0.05未満) ➔ 正規分布ではない可能性が高い
JMPで正規性を調べる手順
JMPは統計解析ソフトの中で直感的な操作が特徴です。正規性検定は以下の手順で行えます。
1. データの読み込みと基本分析
- 分析 → 一変量の分布 を選択
- 正規性を調べたい変数を「Y, 列」に移動 → 「OK」クリック
- ヒストグラムと基本統計量が表示されます
2. 正規分位点プロットの作成
- 変数名の横の赤い三角ボタン ▼ をクリック
- 正規分位点プロット を選択
- データポイントが直線に沿っていれば正規分布と判断
3. 正規性検定の実施
- 赤い三角ボタン ▼ から 連続分布のあてはめ → 正規 を選択
- 表示された「正規のあてはめ」の赤い三角ボタン ▼ をクリック
- 適合度 を選択
4. 結果の解釈
| 項目 | 内容 |
|---|---|
| Prob < W | Shapiro-Wilk検定のp値(標本サイズ ≤ 2000の場合) |
| Prob > D | Kolmogorov-Smirnov検定のp値(標本サイズ > 2000の場合) |
| 判断基準 | p値 < 0.05 → 正規分布ではない p値 ≥ 0.05 → 正規分布の可能性あり |
JMP操作のポイント
- 標本サイズによる自動切り替え:
JMPは標本サイズが2000以下ならShapiro-Wilk検定、2000超ならKolmogorov-Smirnov検定を自動選択 - 可視化の重要性:
ヒストグラムと正規分位点プロットを併用し、数値結果と視覚的確認を組み合わせる - 外れ値の影響:
プロット上で外れ値と思われる点をダブルクリックすると、元データを特定可能
データの標準化と正規化とは?
正規性の検定とは別に、機械学習などでよく耳にするのが**「標準化」や「正規化」**です。
名前が似ていますが、目的や方法が異なるので整理しておきましょう。
データの標準化(Standardization)
標準化とは、データを
- 平均0
- 標準偏差1
に変換する作業のことです。
計算式は次の通りです。 Z=(X−μ)/σ
ここで、
- X:元のデータ
- μ:データの平均
- σ:データの標準偏差
標準化を行うことで、異なる単位やスケールを持つデータ同士を比較できるようになります。
特に、線形回帰やSVMなど、スケールに敏感なモデルでは標準化が重要です。
データの正規化(Normalization)
正規化とは、データを0〜1の範囲など、特定の範囲に収める作業のことです。
特によく使われるのはMin-Maxスケーリングです。
計算式は次の通りです。 Xnorm = (X-Xmin)/(Xmax-Xmin)
ここで、
- Xmin:データの最小値
- Xmax:データの最大値
正規化によって、すべてのデータが同じスケールに揃うため、ニューラルネットワークなどでは学習が安定しやすくなります。
標準化と正規化の違いまとめ
| 項目 | 標準化 | 正規化 |
|---|---|---|
| 主な目的 | 平均と分散を揃える | 値を特定範囲に収める |
| 出力範囲 | 平均0、標準偏差1 | 0〜1などの範囲 |
| 使われやすい場面 | 線形回帰、SVMなど | ニューラルネットワーク、画像データ |
まとめ
この記事では、まず正規性の検定を通じて、データが正規分布に従っているかを確認する重要性について解説しました。
そして、データを適切に前処理するために欠かせない標準化と正規化についても紹介しました。
正規性を確認し、必要に応じて標準化・正規化を行うことで、
モデルの精度や信頼性を大きく向上させることができます。
データ分析や機械学習を進めるうえで、この基本ステップを自然に使いこなせるようになりましょう!
【あわせて読みたい】
🔹 次におすすめの記事
▶なぜ標準化・正規化でモデルの精度が上がるのか?実例と一緒に解説
🔹 関連記事
▶「正規分布とは?現実世界と機械学習での使われ方・特徴をやさしく解説」
▶主要6モデルをやさしく解説!線形回帰・ロジスティック回帰・KNN・SVM・決定木・ランダムフォレストとは?
▶「基本統計量をマスター!平均・中央値・最頻値・分散・標準偏差を実例でわかりやすく解説」
🔹 統計自主学習シリーズまとめページはこちら
▶【初心者向け】統計自主学習シリーズまとめ

コメント