【準備】sklearnのインストールとデータセットの扱い方

はじめに

scikit-learn(sklearn)を使って機械学習を始めるにあたり、最初に押さえておくべきことが「ライブラリのインストール」と「データの準備」です。

本記事では、sklearnをインストールする方法と、学習用のデータセットをどう扱うか、さらにpandasと連携したデータ確認の基本までを、初心者向けにやさしく解説します。


scikit-learnのインストール方法

方法①:pipを使う(最も基本)

pip install scikit-learn

方法②:condaを使う(Anacondaユーザー向け)

conda install scikit-learn

方法③:Google Colabで利用する

Google Colab はすでに scikit-learn がプリインストールされています。そのため、特にインストールせずともすぐに使い始めることができます。

バージョンを確認するには:

import sklearn
print(sklearn.__version__)

Google Colab では、以下のようにすぐにコードを実行できます:

from sklearn.datasets import load_iris
iris = load_iris()

Colabを使うことで環境構築の手間を減らし、すぐに学習に取り組めるのがメリットです。


内蔵データセットの読み込み

scikit-learnには、練習用の小規模な有名データセットがいくつか内蔵されています。

主な内蔵データセット

名前内容タスク例
load_iris()アヤメの品種分類分類
load_wine()ワインの成分データ分類
load_diabetes()糖尿病の進行度回帰
load_digits()手書き数字(8×8画像)分類

例:Irisデータセットを読み込む

from sklearn.datasets import load_iris
iris = load_iris()
print(iris.keys())
  • data:説明変数(特徴量)
  • target:目的変数(正解ラベル)
  • feature_names:各列の名前
  • target_names:分類ラベル名

pandasで表形式にして確認する

scikit-learnのデータはNumPy配列形式なので、見やすくするためにpandasでDataFrame化するのが一般的です。

import pandas as pd
import numpy as np
from sklearn.datasets import load_iris

iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df["target"] = iris.target
print(df.head())

これで、Excelのような感覚でデータを確認・加工することができます。


データを訓練用とテスト用に分ける

from sklearn.model_selection import train_test_split

X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
  • test_size=0.2:20%をテストデータに
  • random_state:シード値(再現性のため)

おわりに

scikit-learnを使う準備として、ライブラリのインストールと内蔵データの扱い、pandasとの連携までを解説しました。

Google Colabを使えば環境構築不要で始められるため、初心者の方には特におすすめです。

次回は、いよいよ分類モデル「K近傍法(KNN)」を使って、実際に分類予測を行ってみましょう。


練習問題

Q1. 次のうち、scikit-learnが内蔵しているデータセットはどれ?(複数選択)

  • load_iris()
  • load_digits()
  • load_cancer()
  • load_boston()

※(2020年以降、load_boston()は非推奨)

Q2. pandasを使ってDataFrameに変換するメリットを1つ挙げてください。

・・・

Q3. train_test_split関数で random_state を指定する目的は何ですか?

  • A. 学習速度を上げる
  • B. 精度を改善する
  • C. 再現性を保つ

🔗 機械学習シリーズ 関連リンク

▶ 入門〜分類編

▶ 回帰編

▶ 応用編

コメント

タイトルとURLをコピーしました