線形回帰・ロジスティック回帰・KNN・SVM・決定木・ランダムフォレストの特徴と違いを初心者向けに解説。

はじめに
線形回帰（Linear Regression）
1. 特徴
2. 式
ロジスティック回帰（Logistic Regression）
1. 特徴
2. 式（シグモイド関数）
k近傍法（k-Nearest Neighbors, KNN）
1. 特徴
サポートベクターマシン（SVM）
1. 特徴
決定木（Decision Tree）
1. 特徴
ランダムフォレスト（Random Forest）
1. 特徴
まとめ
1. モデルごとの代表的な活用例
モデル選択フローチャート
Q1. ランダムフォレストはなぜ過学習に強いの？

はじめに

機械学習にはさまざまなアルゴリズムが存在しますが、最初に押さえておきたい基本的なモデルがいくつかあります。

この記事では、特に使用頻度の高い

線形回帰
ロジスティック回帰
k近傍法（KNN）
SVM（サポートベクターマシン）
決定木
ランダムフォレスト

これら6つのモデルについて、仕組みや特徴をわかりやすく解説していきます。

🔹 統計自主学習シリーズまとめページはこちら
▶【初心者向け】統計自主学習シリーズまとめ

線形回帰（Linear Regression）

線形回帰は、数値を予測するための最も基本的な回帰モデルです。

特徴量とターゲット（予測したい値）の間に直線的な関係があると仮定し、
データに最もフィットする直線（回帰直線）を求めます。

特徴

出力は連続値（例：家の価格、売上金額）
「特徴量の重み（係数）」を学習する
シンプルで解釈しやすいモデル

式

y = w₁x₁ + w₂x₂ + w₃x₃ +w₄x₄ + ・・・ + wnxn + b

ロジスティック回帰（Logistic Regression）

ロジスティック回帰は、分類問題に使われるアルゴリズムです。

「与えられたデータがあるクラスに属する確率」を予測します。
名前に「回帰」とついていますが、主に2値分類（Yes/No、0/1）に用いられます。

特徴

出力は確率（0〜1の範囲）
分類結果を決定するために、シグモイド関数を使用
特徴量とクラスの関係が線形であることを仮定

式（シグモイド関数）

P(y=1) = 1 /｛1 + e^⁻(w₁x₁ + w₂x₂ + w₃x₃ +w₄x₄ + ・・・ + wnxn + b)}

k近傍法（k-Nearest Neighbors, KNN）

k近傍法は、非常にシンプルな分類・回帰アルゴリズムです。

新しいデータが来たときに、トレーニングデータの中から近いk個を探し、
それらの多数決や平均を使って予測を行います。

特徴

学習というより、「覚えておく」スタイル
新しいデータの予測時に距離を計算
ハイパーパラメータとして「k（近傍数）」を設定する必要がある

サポートベクターマシン（SVM）

SVMは、分類や回帰に使われる強力なアルゴリズムです。

データをできるだけ広いマージン（間隔）で分けるような境界線（ハイパープレーン）を探し、
分類の精度を最大化します。

特徴

「サポートベクター」と呼ばれる重要なデータ点によって境界を決定
線形分類だけでなく、カーネル法を使えば非線形問題にも対応可能
少ないデータでも強力な性能を発揮

決定木（Decision Tree）

決定木は、条件分岐を繰り返して予測を行うモデルです。

データを何度も分割していき、最終的に分類ラベルや数値予測を行います。

特徴

「◯◯が△△以上ならこっち、未満ならあっち」という直感的なルールで構成
視覚的に理解しやすく、解釈しやすい
過学習しやすい（深くなりすぎると特に）

ランダムフォレスト（Random Forest）

ランダムフォレストは、複数の決定木を組み合わせたアンサンブル学習の代表例です。

個々の木はランダムに特徴量を選んで学習し、それらの予測を多数決や平均でまとめます。

特徴

過学習しにくく、安定した性能を出しやすい
少し解釈は難しくなるが、単体の決定木よりも強力
分類にも回帰にも使える万能モデル

まとめ

今回紹介した6つのモデルは、機械学習の基本を支える代表的なアルゴリズムです。

モデル名	主な用途	特徴
線形回帰	数値予測	シンプルな直線モデル
ロジスティック回帰	分類	確率を出力して分類
k近傍法	分類・回帰	近いデータから予測
SVM	分類・回帰	マージン最大化による分類
決定木	分類・回帰	条件分岐で直感的に予測
ランダムフォレスト	分類・回帰	複数の決定木で安定した予測

モデルごとの代表的な活用例

線形回帰：住宅価格の予測、売上予測
ロジスティック回帰：スパムメール判定、病気の有無予測
KNN：手書き数字認識、顧客の趣味分類
SVM：画像分類、テキスト分類
決定木：顧客の購買傾向分析、ローン審査
ランダムフォレスト：マーケティング分析、医療診断支援

まずはこれらの仕組みをしっかり理解することが、
その後のより高度なモデル選択やハイパーパラメータ調整に活きてきます。

モデル選択フローチャート

主要6モデルは、目的やデータの特徴によって使い分けることが大切です。それぞれの強み・弱みを理解し、実際の課題に合わせて最適なモデルを選択しましょう。

【あわせて読みたい】

🔹 次におすすめの記事

▶回帰分析の基本をマスター！単回帰分析と重回帰分析をわかりやすく解説

▶正規性の検定とは？データの標準化・正規化もまとめてわかりやすく解説

▶「基本統計量をマスター！平均・中央値・最頻値・分散・標準偏差を実例でわかりやすく解説」

▶データの広がりを一目で把握！箱ひげ図の読み方と使い方

🔹 統計自主学習シリーズまとめページはこちら
▶【初心者向け】統計自主学習シリーズまとめ

Q1. ランダムフォレストはなぜ過学習に強いの？

ランダムフォレストは、複数の決定木をランダムに構築し、それらの予測を平均（回帰の場合）または多数決（分類の場合）でまとめる「アンサンブル学習」の手法です。
この方法により、個々の決定木が持つ過学習（ノイズへの適合）を相殺し、モデル全体のバラつきを大幅に減らすことができます。

ただし、まったく過学習しないわけではありません。
特徴量が多すぎたり、個々の木が深すぎる場合などは、ランダムフォレストでも過学習が起こることがあります。そのため、木の深さや特徴量数などのハイパーパラメータ調整、クロスバリデーションによる検証が重要です。

線形回帰・ロジスティック回帰・KNN・SVM・決定木・ランダムフォレストとは？基本6モデルを初心者向けに解説｜統計自主学習⑩