統計自主学習

JMP

【PythonでPCA】主成分分析を使ってデータを2次元に可視化する 画像あり|統計自主学習補足

はじめにこの記事は、主成分分析(PCA)とは?次元削減の基本を初心者向けにやさしく解説|統計自主学習⑮の補足として、Pythonを使ってPCAを実際に実装してみる内容です。この記事では、PCAによる次元削減データを2次元に圧縮して可視化する...
JMP

【Pythonで外れ値検出】IQR法とZスコア法を実装して実データで試してみた|統計自主学習補足

はじめにこの記事は、【統計自主学習④】外れ値を統計的に検出する方法 ― IQR法とZスコア法をわかりやすく解説の補足として、実際にPythonを使って外れ値検出を実装してみる内容です。「理論はわかったけど、実際にどうやってコードにするの?」...
JMP

教師なし学習の応用編:異常検知・次元削減の世界をやさしく解説|統計自主学習⑱

はじめにこれまでクラスタリングなど教師なし学習(Unsupervised Learning)の基本を学んできました。今回はさらに一歩踏み込んで、教師なし学習の実践的な応用例を紹介します。この記事では、異常検知(Anomaly Detecti...
JMP

クラスタ数はどう決める?エルボー法とシルエット分析を初心者向けにやさしく解説|統計自主学習⑰

はじめに前回の記事では、クラスタリング(k-means法など)を使ってデータをグループ分けする方法を学びました。クラスタリングとは?教師なし学習の基本をやさしく解説しかし、実際にクラスタリングをする際に必ず悩むのが「クラスタ数(k)をいくつ...
JMP

クラスタリングとは?教師なし学習の基礎とk-meansの使い方|統計自主学習⑯

はじめにこれまでの記事では、教師あり学習(分類・回帰)を中心に学んできました。ひとつ前の記事 主成分分析(PCA)で次元削減!データの本質を捉える方法今回は新たなテーマ、「教師なし学習(unsupervised learning)」に挑戦し...
JMP

主成分分析(PCA)とは?次元削減の基本と使い方をやさしく解説|統計自主学習⑮

はじめにデータ分析や機械学習では、「特徴量(説明変数)が多すぎる」問題に直面することがよくあります。特徴量が多いと、モデルが複雑になりすぎる計算コストが増える過学習しやすくなるこれを防ぐための基本的なテクニックが、「次元削減(Dimensi...
JMP

ハイパーパラメータとは?グリッドサーチ・ランダムサーチの使い方を初心者向けに解説|統計自主学習⑭

はじめに機械学習モデルを作成するとき、「どんなモデルを選ぶか」だけでなく、「そのモデルの設定をどうするか」も非常に重要なポイントです。このモデル設定を調整する作業が、「ハイパーパラメータチューニング」です。この記事では、ハイパーパラメータと...
JMP

過学習とは?バイアス・バリアンス問題をやさしく理解|統計自主学習⑬

はじめに機械学習モデルを作成するとき、必ず直面する重要な課題が「過学習(オーバーフィッティング)」です。また、モデルの性能を正しく理解するためには、「バイアス・バリアンスのトレードオフ」についても知っておく必要があります。この記事では、過学...
JMP

混同行列・F1スコアとは?分類問題の評価指標をわかりやすく解説|統計自主学習⑫

はじめに機械学習で分類問題を扱うとき、「モデルの精度ってどうやって測るの?」と疑問に思ったことはありませんか?単に「正しく分類できた割合(精度)」を見るだけでは、本当に良いモデルかどうか判断できない場合があります。この記事では、混同行列(C...
JMP

単回帰分析と重回帰分析とは?回帰の基本を実例つきで解説|統計自主学習⑪

はじめにこれまでの学習では、機械学習モデルの概要やデータの前処理について理解を深めてきました。次のステップとして重要になるのが、「回帰分析」です。回帰分析は、あるデータ(特徴量)から別のデータ(目的変数)を数値的に予測するための基本的な手法...
統計

【初心者向け】統計学入門・データ分析基礎をマスター!統計自主学習シリーズまとめ

― 基本統計量から外れ値対応、機械学習モデルまで一気に理解!統計を独学で学びたい方へ。この【統計自主学習シリーズ】では、基礎から応用まで、初心者にもわかりやすくステップアップできる内容をまとめています。それぞれの記事で、実例や図を交えながら...
JMP

線形回帰・ロジスティック回帰・KNN・SVM・決定木・ランダムフォレストとは?基本6モデルを初心者向けに解説|統計自主学習⑩

はじめに機械学習にはさまざまなアルゴリズムが存在しますが、最初に押さえておきたい基本的なモデルがいくつかあります。この記事では、特に使用頻度の高い線形回帰ロジスティック回帰k近傍法(KNN)SVM(サポートベクターマシン)決定木ランダムフォ...
JMP

標準化・正規化で精度が上がる理由とは?機械学習実例つきで解説|統計自主学習⑨

はじめに機械学習や統計モデルを使う際、「データを標準化・正規化すると精度が上がる」とよく言われます。しかし、なぜそんな効果があるのでしょうか?単なる形式的な前処理だと思ってしまうと、その重要性を見逃してしまうかもしれません。この記事では、標...
JMP

正規性の検定とは?標準化・正規化までまとめて解説|統計自主学習⑧

はじめにデータ分析や機械学習に取り組むとき、「このデータは正規分布に従っているだろうか?」という疑問が出てくることがあります。また、アルゴリズムによっては、分析前にデータのスケールを揃えるために標準化や正規化を行う必要もあります。この記事で...
JMP

外れ値を見つける統計手法!IQR法とZスコア法を初心者向けに解説|統計自主学習④

はじめにデータ分析をしていると、「なんだか極端な値があるな」と感じることがあります。こうした外れ値は、分析結果に大きな影響を与えることもあるため、できるだけ早い段階で発見して対応することが重要です。では、外れ値はどのように見つければよいので...
JMP

外れ値の対応方法を徹底解説!除外・修正・検討ポイント|統計自主学習③

はじめにデータ分析を進める中で、外れ値(Outlier)に出会うことは珍しくありません。箱ひげ図を使ったり、統計的な手法を用いることで、通常のデータから大きく外れた値を発見できることがあります。では、外れ値を見つけたらどうすればいいのでしょ...
JMP

【箱ひげ図とは】データのばらつきを一目で把握する方法|統計自主学習②

箱ひげ図 読み方|外れ値や分布をパッと理解する方法はじめにデータを分析する際、「平均」や「中央値」といった代表値だけでは、全体のばらつきや極端な値(外れ値)までは見えてきません。そんなときに役立つのが箱ひげ図(Box plot)です。箱ひげ...
JMP

量的データ・質的データとは?分類と違いを基礎から学ぶ|統計自主学習⑥

はじめにデータ分析の第一歩は、目の前のデータがどのような性質を持っているかを正しく見極めることです。特に重要なのは、「量的データ」か「質的データ」かという分類です。この2つは、単にデータの見た目が違うだけでなく、使える統計手法や分析方法にも...