線形回帰・ロジスティック回帰・KNN・SVM・決定木・ランダムフォレストとは?基本6モデルを初心者向けに解説|統計自主学習⑩

はじめに

機械学習にはさまざまなアルゴリズムが存在しますが、最初に押さえておきたい基本的なモデルがいくつかあります。

この記事では、特に使用頻度の高い

  • 線形回帰
  • ロジスティック回帰
  • k近傍法(KNN)
  • SVM(サポートベクターマシン)
  • 決定木
  • ランダムフォレスト

これら6つのモデルについて、仕組みや特徴をわかりやすく解説していきます。

🔹 統計自主学習シリーズまとめページはこちら
【初心者向け】統計自主学習シリーズまとめ


線形回帰(Linear Regression)

線形回帰は、数値を予測するための最も基本的な回帰モデルです。

特徴量とターゲット(予測したい値)の間に直線的な関係があると仮定し、
データに最もフィットする直線(回帰直線)を求めます。

特徴

  • 出力は連続値(例:家の価格、売上金額)
  • 「特徴量の重み(係数)」を学習する
  • シンプルで解釈しやすいモデル

y = w₁x₁ + w₂x₂ + w₃x₃ +w₄x₄ + ・・・ + wnxn + b

線形回帰を説明する図

ロジスティック回帰(Logistic Regression)

ロジスティック回帰は、分類問題に使われるアルゴリズムです。

「与えられたデータがあるクラスに属する確率」を予測します。
名前に「回帰」とついていますが、主に2値分類(Yes/No、0/1)に用いられます。

特徴

  • 出力は確率(0〜1の範囲)
  • 分類結果を決定するために、シグモイド関数を使用
  • 特徴量とクラスの関係が線形であることを仮定

式(シグモイド関数)

P(y=1) = 1 /{1 + e^⁻(w₁x₁ + w₂x₂ + w₃x₃ +w₄x₄ + ・・・ + wnxn + b)}


k近傍法(k-Nearest Neighbors, KNN)

k近傍法は、非常にシンプルな分類・回帰アルゴリズムです。

新しいデータが来たときに、トレーニングデータの中から近いk個を探し、
それらの多数決や平均を使って予測を行います。

特徴

  • 学習というより、「覚えておく」スタイル
  • 新しいデータの予測時に距離を計算
  • ハイパーパラメータとして「k(近傍数)」を設定する必要がある
k近傍法を説明する図

サポートベクターマシン(SVM)

SVMは、分類や回帰に使われる強力なアルゴリズムです。

データをできるだけ広いマージン(間隔)で分けるような境界線(ハイパープレーン)を探し、
分類の精度を最大化します。

特徴

  • 「サポートベクター」と呼ばれる重要なデータ点によって境界を決定
  • 線形分類だけでなく、カーネル法を使えば非線形問題にも対応可能
  • 少ないデータでも強力な性能を発揮
サポートベクターマシンを説明する図

決定木(Decision Tree)

決定木は、条件分岐を繰り返して予測を行うモデルです。

データを何度も分割していき、最終的に分類ラベル数値予測を行います。

特徴

  • 「◯◯が△△以上ならこっち、未満ならあっち」という直感的なルールで構成
  • 視覚的に理解しやすく、解釈しやすい
  • 過学習しやすい(深くなりすぎると特に)

ランダムフォレスト(Random Forest)

ランダムフォレストは、複数の決定木を組み合わせたアンサンブル学習の代表例です。

個々の木はランダムに特徴量を選んで学習し、それらの予測を多数決や平均でまとめます。

特徴

  • 過学習しにくく、安定した性能を出しやすい
  • 少し解釈は難しくなるが、単体の決定木よりも強力
  • 分類にも回帰にも使える万能モデル

まとめ

今回紹介した6つのモデルは、機械学習の基本を支える代表的なアルゴリズムです。

モデル名主な用途特徴
線形回帰数値予測シンプルな直線モデル
ロジスティック回帰分類確率を出力して分類
k近傍法分類・回帰近いデータから予測
SVM分類・回帰マージン最大化による分類
決定木分類・回帰条件分岐で直感的に予測
ランダムフォレスト分類・回帰複数の決定木で安定した予測

モデルごとの代表的な活用例

  • 線形回帰:住宅価格の予測、売上予測
  • ロジスティック回帰:スパムメール判定、病気の有無予測
  • KNN:手書き数字認識、顧客の趣味分類
  • SVM:画像分類、テキスト分類
  • 決定木:顧客の購買傾向分析、ローン審査
  • ランダムフォレスト:マーケティング分析、医療診断支援

まずはこれらの仕組みをしっかり理解することが、
その後のより高度なモデル選択やハイパーパラメータ調整に活きてきます。

モデル選択フローチャート

主要6モデルは、目的やデータの特徴によって使い分けることが大切です。それぞれの強み・弱みを理解し、実際の課題に合わせて最適なモデルを選択しましょう。

【あわせて読みたい】

🔹 次におすすめの記事

回帰分析の基本をマスター!単回帰分析と重回帰分析をわかりやすく解説

🔹 関連記事
「正規分布とは?現実世界と機械学習での使われ方・特徴をやさしく解説」

正規性の検定とは?データの標準化・正規化もまとめてわかりやすく解説

「基本統計量をマスター!平均・中央値・最頻値・散・標準偏差を実例でわかりやすく解説」

データの広がりを一目で把握!箱ひげ図の読み方と使い方

🔹 統計自主学習シリーズまとめページはこちら
【初心者向け】統計自主学習シリーズまとめ

Q1. ランダムフォレストはなぜ過学習に強いの?

ランダムフォレストは、複数の決定木をランダムに構築し、それらの予測を平均(回帰の場合)または多数決(分類の場合)でまとめる「アンサンブル学習」の手法です。
この方法により、個々の決定木が持つ過学習(ノイズへの適合)を相殺し、モデル全体のバラつきを大幅に減らすことができます。

ただし、まったく過学習しないわけではありません
特徴量が多すぎたり、個々の木が深すぎる場合などは、ランダムフォレストでも過学習が起こることがあります。そのため、木の深さや特徴量数などのハイパーパラメータ調整、クロスバリデーションによる検証が重要です。

コメント

タイトルとURLをコピーしました