はじめに
機械学習にはさまざまなアルゴリズムが存在しますが、最初に押さえておきたい基本的なモデルがいくつかあります。
この記事では、特に使用頻度の高い
- 線形回帰
- ロジスティック回帰
- k近傍法(KNN)
- SVM(サポートベクターマシン)
- 決定木
- ランダムフォレスト
これら6つのモデルについて、仕組みや特徴をわかりやすく解説していきます。
🔹 統計自主学習シリーズまとめページはこちら
▶【初心者向け】統計自主学習シリーズまとめ
線形回帰(Linear Regression)
線形回帰は、数値を予測するための最も基本的な回帰モデルです。
特徴量とターゲット(予測したい値)の間に直線的な関係があると仮定し、
データに最もフィットする直線(回帰直線)を求めます。
特徴
- 出力は連続値(例:家の価格、売上金額)
- 「特徴量の重み(係数)」を学習する
- シンプルで解釈しやすいモデル
式
y = w₁x₁ + w₂x₂ + w₃x₃ +w₄x₄ + ・・・ + wnxn + b

ロジスティック回帰(Logistic Regression)
ロジスティック回帰は、分類問題に使われるアルゴリズムです。
「与えられたデータがあるクラスに属する確率」を予測します。
名前に「回帰」とついていますが、主に2値分類(Yes/No、0/1)に用いられます。
特徴
- 出力は確率(0〜1の範囲)
- 分類結果を決定するために、シグモイド関数を使用
- 特徴量とクラスの関係が線形であることを仮定
式(シグモイド関数)
P(y=1) = 1 /{1 + e^⁻(w₁x₁ + w₂x₂ + w₃x₃ +w₄x₄ + ・・・ + wnxn + b)}
k近傍法(k-Nearest Neighbors, KNN)
k近傍法は、非常にシンプルな分類・回帰アルゴリズムです。
新しいデータが来たときに、トレーニングデータの中から近いk個を探し、
それらの多数決や平均を使って予測を行います。
特徴
- 学習というより、「覚えておく」スタイル
- 新しいデータの予測時に距離を計算
- ハイパーパラメータとして「k(近傍数)」を設定する必要がある

サポートベクターマシン(SVM)
SVMは、分類や回帰に使われる強力なアルゴリズムです。
データをできるだけ広いマージン(間隔)で分けるような境界線(ハイパープレーン)を探し、
分類の精度を最大化します。
特徴
- 「サポートベクター」と呼ばれる重要なデータ点によって境界を決定
- 線形分類だけでなく、カーネル法を使えば非線形問題にも対応可能
- 少ないデータでも強力な性能を発揮

決定木(Decision Tree)
決定木は、条件分岐を繰り返して予測を行うモデルです。
データを何度も分割していき、最終的に分類ラベルや数値予測を行います。
特徴
- 「◯◯が△△以上ならこっち、未満ならあっち」という直感的なルールで構成
- 視覚的に理解しやすく、解釈しやすい
- 過学習しやすい(深くなりすぎると特に)
ランダムフォレスト(Random Forest)
ランダムフォレストは、複数の決定木を組み合わせたアンサンブル学習の代表例です。
個々の木はランダムに特徴量を選んで学習し、それらの予測を多数決や平均でまとめます。
特徴
- 過学習しにくく、安定した性能を出しやすい
- 少し解釈は難しくなるが、単体の決定木よりも強力
- 分類にも回帰にも使える万能モデル
まとめ
今回紹介した6つのモデルは、機械学習の基本を支える代表的なアルゴリズムです。
| モデル名 | 主な用途 | 特徴 |
|---|---|---|
| 線形回帰 | 数値予測 | シンプルな直線モデル |
| ロジスティック回帰 | 分類 | 確率を出力して分類 |
| k近傍法 | 分類・回帰 | 近いデータから予測 |
| SVM | 分類・回帰 | マージン最大化による分類 |
| 決定木 | 分類・回帰 | 条件分岐で直感的に予測 |
| ランダムフォレスト | 分類・回帰 | 複数の決定木で安定した予測 |
モデルごとの代表的な活用例
- 線形回帰:住宅価格の予測、売上予測
- ロジスティック回帰:スパムメール判定、病気の有無予測
- KNN:手書き数字認識、顧客の趣味分類
- SVM:画像分類、テキスト分類
- 決定木:顧客の購買傾向分析、ローン審査
- ランダムフォレスト:マーケティング分析、医療診断支援
まずはこれらの仕組みをしっかり理解することが、
その後のより高度なモデル選択やハイパーパラメータ調整に活きてきます。
モデル選択フローチャート

主要6モデルは、目的やデータの特徴によって使い分けることが大切です。それぞれの強み・弱みを理解し、実際の課題に合わせて最適なモデルを選択しましょう。
【あわせて読みたい】
🔹 次におすすめの記事
▶回帰分析の基本をマスター!単回帰分析と重回帰分析をわかりやすく解説
🔹 関連記事
▶「正規分布とは?現実世界と機械学習での使われ方・特徴をやさしく解説」
▶正規性の検定とは?データの標準化・正規化もまとめてわかりやすく解説
▶「基本統計量をマスター!平均・中央値・最頻値・分散・標準偏差を実例でわかりやすく解説」
🔹 統計自主学習シリーズまとめページはこちら
▶【初心者向け】統計自主学習シリーズまとめ
Q1. ランダムフォレストはなぜ過学習に強いの?
ランダムフォレストは、複数の決定木をランダムに構築し、それらの予測を平均(回帰の場合)または多数決(分類の場合)でまとめる「アンサンブル学習」の手法です。
この方法により、個々の決定木が持つ過学習(ノイズへの適合)を相殺し、モデル全体のバラつきを大幅に減らすことができます。
ただし、まったく過学習しないわけではありません。
特徴量が多すぎたり、個々の木が深すぎる場合などは、ランダムフォレストでも過学習が起こることがあります。そのため、木の深さや特徴量数などのハイパーパラメータ調整、クロスバリデーションによる検証が重要です。

コメント