統計ソフトJMPの使いかた(データの入力から解析まで)

2022年8月18日2023年11月21日

※このページの前提条件　有意水準は常に0.05とする。

1. データの入力(以下に示す方法➀②③のうち、いずれかを選択)

　 ↳1-1. 方法➀直接入力する

　　 ↳1-1-1. データテーブルの作製

　　 ↳1-1-2. 列・行の追加

　　 ↳1-1-3. 列・行の名前変更

　 ↳1-2. 方法②エクセルシートをコピペする

　　 ↳1-2-1. コピペしたいエクセルシートを列名を含めてコピーする。

　　 ↳1-2-2. データテーブルの作製

　　 ↳1-2-3. データの貼り付け

　 ↳1-3. 方法③エクセルシートを読み込んだのち必要範囲を切り取る

　　○データ入力の手間を減らすテクニック

○解析可能なデータ形式への変更方法

2. 入力データのデータタイプ(文字・数字)、尺度(連続・順序・名義)の指定

　 ↳2-1. データ尺度の指定

　 ↳2-2. 指定されているデータ尺度の確認

3. 一変量データの分析

　 ↳3-1. 分析レポートの表示

　　↳3-1-1. 一変量の分析

　　 ↳3-1-2. 統計データの表示形式変更と表示項目の追加

　　　　　↳レポートを横に表示する方法

　　　　　↳分位点の表示設定

　　　　　 ↳ヒストグラムの表示設定

　　　　　 ↳表示項目の追加方法

　　　　　↳正規分位点プロットと累積確率の表示

↳3-2. 層別にデータを解析する方法

　　　　　↳データの入力

他は3-1-2と同様。

　　 ↳3-3. カテゴリーデータを解析する方法

　　　　　↳度数分布表・グラフの表示

　　　　　↳その他の解析方法(仮説検定など)

　　 ↳3-4. 順序尺度データを解析する方法

　　　　　↳度数分布表・グラフの表示

　　　　　↳その他の解析方法(信頼区間の表示)

4. 二つ以上の変量データ分析

　　 4-1. 二変量の分析

↳4-1-1. 平均の比較(t検定)

　　 ○ひし形ドットプロットの読み方

　　 ↳等分散性の検定

　　 ↳平均/ANOVA/プーリングしたt検定(スチューデントのt検定)

　　 ↳個々の分散を用いたt検定(ウェルチのt検定)

　　 ↳4-1-2. Wilcoxonの順位和検定(正規分布に従っていないデータの平均値を比較)

4-2. 2つ以上の変量分析(分散分析)※正規分布に従っていると仮定できる場合。

　　　　　↳4-2-1. 平均/ANOVA

　　　　　↳4-2-2. 等分散性の検定

　　　　　↳4-2-3. 多重比較(TukeyのHSD検定)

　　　　　↳○比較円ロットの読み取り方

　　　4-3. 2つ以上の変量分析(Kruskal-Wallis検定)※正規分布に従っていると仮定できない場合。

5. 対応のあるデータ分析

　　　5-1. 平均の比較(t検定)

　　　5-2. Wilcoxonの符号付順位検定

6. ２つのデータ間の関係分析

　　　6-1. 相関係数

　　　6-2. 順位相関係数(作成中)

6-3. カイ二乗検定(作成中)

7. 回帰分析

　　　7-1. 単回帰分析

　　　7-2. 重回帰分析

　　　7-3. ロジスティック回帰解析

・・・

1 データの入力

1-1. 直接入力する方法

1-1-1. データテーブルの作製

上の画像の赤丸(データテーブルの新規作成)をクリック

1-1-2. 列・行の追加

➀をダブルクリックすると青枠の範囲に列2が作成され、②をダブルクリックすると赤枠の範囲に列2.3.4が作成される。

また、③をダブルクリックすると緑枠の範囲に行1が生成され、④をダブルクリックすると黄枠の範囲に行1.2.3.4.5が生成される。

1-1-3. 列・行の名前変更

名前を変更したい列・行のセルをダブルクリックし、行名に名前を入力

⇒入力データのデータタイプ(文字・数字)、尺度(連続・順序・名義)の指定へ進む⇐

・・・

1-2. エクセルシートをコピペする方法

1-2-1. コピペしたいエクセルシートを列名を含めてコピーする。

1-2-2. データテーブルの作製

　上の画像の赤丸(データテーブルの新規作成)をクリック

1-2-3. データの貼り付け

編集→列名とともに貼り付けを選択

⇒入力データのデータタイプ(文字・数字)、尺度(連続・順序・名義)の指定へ進む⇐

・・・

1-3. エクセルシートを読み込んだのち必要範囲を切り取る方法

JMPウィンドウ左上のファイル→開くを選択

上画像の様にすべてのファイルを選択したのち、取り込みたいエクセルファイルを選択し、画像下の開くを選択

画像下の読み込みを選択

⇒入力データのデータタイプ(文字・数字)、尺度(連続・順序・名義)の指定へ進む⇐

・・・

データ入力の手間を減らすテクニック

上画像のようなデータを簡単に入力したい場合

➀をダブルクリック、②の列プロパティ、③の値ラベルの順に選択。

開いたウィンドウの値に1、ラベルにJapaneseを入力し追加を押す。同じように値に2、ラベルにChineseを入力し追加、

値に3、ラベルにKoreanを入力し追加すると上画像のようになる。この状態でウィンドウ右上のOKを押す。すると、セル内に1を入力するとJapaneseに2を入力するとChineseに、3を入力するとKoreanに変換される。これを用いれば、データ量が多い場合やラベル名が長い場合に、手入力の手間を減らすことが出来る。

・・・

解析可能なデータ形式への変更

JMPでは、1回答1行のデータ形式を原則としているので下画像のような2×3のデータを解析することはできない。

そのため下画像の様な6列のデータ形式に変更する必要がある。

実際の操作手順

下画像の様にテーブル、列の積み重ねを選択。

下画像に示すとおり、開いたウィンドウの積み重ねる列に、「日本人」「中国人」「韓国人」をウィンドウ左の列の選択からドラッグ＆ドロップし元の列のラベルに国籍をキーボード入力する。その後アクション下部にあるOKを選択すれば、先に述べた解析可能なデータ形式に変更が完了。

・・・

2.入力データのデータタイプ(文字・数字)、尺度(連続・順序・名義)の指定

データの種類について

データは数値で表現できる数量データ(例身長、体重、血圧など)と所属や種類を表すカテゴリーデータに大別することが出来る。さらに、数量データは間隔尺度(例、西暦、セルシウス温度など)と比例尺度(例身長、体重、絶対温度など)に、カテゴリーデータは名義尺度(例血液型、名前、所属先など)、順序尺度(例等級、順位、震度など)分けることが出来る。

※JMPでは間隔尺度と比例尺度を区別せず、どちらも連続尺度として扱う。

2-1. データの尺度の指定

例)人気ランキングは順序尺度として扱いたい場合

上画像の赤枠内をダブルクリックすると黄枠に囲まれるウィンドウが表示されるので尺度を順序尺度に変更。

・・・

2-2. 指定されている尺度の確認

指定されている尺度は上画像の赤枠を確認する必要がある。

（画像の場合は名前と性別は名義尺度、人数ランキングは順序尺度、身長は連続尺度であることが確認できる）

・・・

3. データの分析

3-1. 分析レポートの表示

・・・

3-1-1. 一変量の分析

今回使用するデータ。

下画像の様に、メニューバー分析中の一変量の分布を選択

上画像のようなウィンドウのY,列に分析したい列を設定し、OKをクリック。

これで、ヒストグラムや箱ひげ図、平均値などの統計量が表示される。

・・・

3-1-2. 統計データの表示形式変更と表示項目の追加

統計データの表示形式変更方法

レポートを横に表示する方法

上画像の赤枠をクリックし、表示オプション➡横に並べる。

分位点の表示設定

上画像赤枠をクリックし、表示オプション➡分位点の間隔の設定を選択。

すると、下画像の様なウィンドウが表示されるので、分位点の間隔(0～1)を変更しOKを押す。

ヒストグラムの表示設定

上画像赤枠をクリック後、ヒストグラムオプションを選択すると下画像左側のようなバーが表示される。

また、上画像左の1から8までを選択することで、上画像右側の対応する色の部分を変更することが出来る。

１標準誤差バーを選択すると、ヒストグラム内に標準誤差の範囲を視覚的に示すことが出来る。

２棒の幅の設定を選択すると、下画像のようなウィンドウが表示されるのでその値を入力しOKを選択すると、縦軸のバーの幅が変わる。

3 ヒストグラムの色を選択し、色を選ぶとヒストグラムの色を変えることが出来る。(上画像では紫色に設定されている)

4 度数軸を選択すると、上画像右側緑枠で示した通り、度数を表示することが出来る。

5 割合軸を選択すると、上画像右側水色枠内に示した通り、割合軸を表示することが出来る。

6 密度軸を選択すると、上画像右側青枠で示した通り、密度軸を表示することが出来る。

7 パーセントの表示を選択すると、上画像右側紫枠内に示した通り、パーセントを表示することが出来る。

8 度数の表示を選択すると、上画像右側黒枠で示した通り、度数を表示することが出来る。

表示項目の追加方法

上図に赤枠で示した▼をクリックし、下図のように表示オプション➡要約統計量のカスタマイズを選択。

ここで表示される下ウィンドウの中から、必要とする要約統計量の枠にチェックを入れOKを押すと統計量の追加が可能。

正規分位点プロットと累積確率の表示

上画像の赤枠➡正規分位点プロットを選択すれば下画像のようなプロットが表示される。

正規分位プロットにおいて、すべてのプロットが二つの点線内にあれば、そのデータは正規分布しているといえる。

(※すべてのプロットが点線内にない場合もデータが正規分布していないとは言えない)

累積確率プロットを選択すれば下画像のようなプロットが表示される。

累積確率プロットでは、ある値(横軸)以下になる確率(縦軸)を示している。

・・・

3-2. 層別にデータを解析する方法

今回用いるデータ

データの入力

分析➡一変量の分布を選択。

Y,列に説明変数を、Byに層別したい変数を選択し、OK。

・・・

3-1-4. カテゴリーデータを解析する方法

今回使用するデータ

度数分布表・グラフの表示

上の3-1-1. 一変量の分析で示したのと同様に、分析➡一変量の分析➡Y,列に分析したい列(今回のデータの場合、学校)を選択➡OKの手順で以下画像の様に度数分布表とグラフが表示されます。

この際表示されるのは棒グラフと度数、割合です。

その他の解析方法(仮説検定など)

モザイク図の表示

追加の▼をクリックし、モザイク図を選択

尤度比、ポアソン比、p値

今回データ(地域内の学校数)を用いて、小学校の割合が0.5であると仮定して尤度比、ポアソン比、p値を求める。

追加の▼をクリックし、割合の検定を選択。

小学校の仮説割合に0.5を入力し完了を押す。下画像はその結果。

ここから、小学校の割合を0.5とした場合、小学校が全体の0.45を占める確率が97.8%であることが分かる。

3-4. 順序尺度データを解析する方法

今回使用するデータ(17人の成績を1から5の5段階評価したもの)

度数分布表・グラフの表示

分析➡一変量の分布➡Y,列に成績評価を選択➡OKを押す。

この際、度数と棒グラフが表示される。

その他の解析方法(信頼区間の表示)

追加の▼をクリックし、信頼区間を0.9,0.95,0.99もしくは自分で設定し選択。(下画像は0.95を選択した場合)

上信頼区間から下側信頼限界と上側信頼限界の間に95%の確率で推定割合が存在する事が分かる。

※サンプル数を増やすほど、信頼区間は狭くなる。

・・・

4. 二つ以上の変量データ分析

4-1-1. 2つの変数の比較

今回用いるデータ

ただし、このデータ形式はt検定を行う上で適した形ではないので下のような形に変更。(画面の都合上24行までしか表示されていないが実際は40行)やり方は、○解析可能なデータ形式への変更方法　○データ入力の手間を減らすテクニックを参照

平均の比較(t検定)

二つの変量の平均に有意差があるかどうかを検討するため、t検定を行う。

下画像の様に、分析➡二変量の関係➡Y,目的変数に総金融資産(万円)を選択➡X,説明変数に資産運用の有無を選択し➡OKを押す。

すると、下画像のような一元配置分析が表示される。

今回は一元配置分析が表示されたが、これはデータの型によって決定される。何が表示されるかは下の画像を参照。

今回の場合、説明変数が名義尺度で目的変数が連続変数であるため、画像右側より黄枠の一元配置が表示された。

・・・

ひし形ドットプロットの読み方

ひし形ドットプロットの表すものは下画像に示した。

また、下画像の様に2つ以上のデータに有意差があるかを判別することもできる。

判別方法は、データの平均バーの上下2つのバー(下画像では黒色)の間に有意差を検討したいデータの2つのバーが存在する場合、有意差はない。逆にそうでない場合有意差があるといえる。※データ数が同じ場合

・・・

等分散性の検定

t検定は母分散が等しいと仮定できる場合と仮定できない場合で、異なるt検定を行う必要がある。そのためt検定を行う前に等分散性の検定を行い母分散が等しいかどうかを判別する必要がある。

▼をクリックし、等分散性の検定を選択。

上画像のうちLeveneのp値、両側F検定のp値がともに0.05以下であるとき母分散に違いを認めることが出来る。今回のデータの場合は、どちらも0.05以下であるため分散が等しいと仮定しないt検定(ウェルチのt検定を行う必要がある。)

平均/ANOVA/プーリングしたt検定(分散が等しいと仮定できる場合)

▼をクリックし、平均/ANOVA/プーリングしたt検定を選択。

母分散がデータ間で等しいと仮定できる場合は分散が等しいと仮定したt検定(スチューデントのt検定)を行うことが出来る。母分散が等しいかどうかは等分散性の検定を参照。

上画像よりp値(Prob>|t|)が0.19と0.05より大きい為、資産運用の有無による総金融資産の平均に有意差を認めることはできない。また、分散分析のF値(群による誤差/偶然による誤差)を見ることで群間の違いを判別できる。F値は大きいほど群による分散の違いが大きいことが分かる。(今回のデータは等分散性の検定より母分散を等しいと仮定することは無理があるので本来の統計的意味を持たない。)

個々の分散を用いたt検定

母分散が等しいと仮定できない場合は、分散が等しくないと仮定したt検定(ウェルチのt検定)を行うことが出来る。

母分散が等しいかどうかは等分散性の検定を参照

▼をクリックし、個々の分散を用いたt検定を選択。

こちらもスチューデントのt検定と同様にp値(Prob>|t|)が0.1964と0.05よりも大きい為資産運用の有無による総金融資産に有意差を認めることが出来ない。

・・・

4-1-2. Wilcoxonの順位和検定

データが正規分布している場合しか、t検定を用いて平均値を比較することはできない。そのため、正規分布していないデータの平均値を比較したい場合はノンパラメトリック検定のひとつであるWilcoxonの順位和検定を行う必要がある。

▼をクリックし、ノンパラメトリック➡Wilcoxon検定を選択。２標本検定(正規近似)のp値(Prob>|z|)が0.05以下であれば、2つのデータ間の中心に有意差があるといえる。

・・・

4-2. 分散分析(正規分布かつ母分散が等しい仮定)

2つ以上の変量データの母平均を比較する場合、分散分析を用いることが出来る(t検定は2変量に限られる)。

今回用いるデータ※今回用いたデータは母分散に有意な違いがある為分散解析結果は統計学的意味をなさない

このデータを列の積み重ね、値ラベルを利用して以下のようなデータ形式に変更する。

分からない場合は列の積み重ね・値ラベルを参照

手順

分析➡二変量の関係➡説明変数にクラスを、目的変数に点数を選択しokを押す。

すると、下画像のような一元配置分析が表示される。

4-2-1. 平均/ANOVA(4つのクラスすべてに有意差がないことを仮定)

手順

▼をクリックし、平均/ANOVAを選択すると下画像が表示される。

今回の場合p値が0.2469と0.05より大きい為、4クラスの点数には有意差があるとは言えない。

4-2-2. 等分散性の検定(4つのクラスすべてに有意差がないことを仮定)

▼をクリックし、等分散性の検定を選択すると下画像が表示される。

このうち検定のLevene、Bartlettのp値が0.001、0.0001以下とどちらも0.05を下回っており有意といえるので母分散に違いを認める。

4-2-3. 多重比較(TukeyのHSD検定)(4つのクラスのうち特定の2クラスの平均に有意差がないことを仮定

手順

▼をクリックし、平均の比較➡すべてのペア、TukeyのHSD検定を選択すると下画像が表示される。

このうちHSD閾値行列の表を見るとすべてマイナスの値をとっていることが分かる。この値がプラスであればその2つのクラスの平均点には有意差があるといえる。(今回の場合はすべてマイナスであるため、クラスの組み合わせ1-2,1-3,1-4,2-3,2-4,3-4計6通りのすべての平均値に有意差はない)

また、比較円を見ると視覚的に有意差を確かめることが出来る。

○比較円ロットの読み取り方

2つの円が交わらない場合や上画像の様に角度が90°以下の場合、平均に有意差があるといえる。一方、90°以上の場合は有意差はないといえる。90°の場合はその境界。

・・・

4-3. 2つ以上の変量分析(Kruskal-Wallis検定)※正規分布に従っていると仮定できない場合。

手順

▼をクリックし、ノンパラメトリック➡Wilcoxon検定を選択

今回のデータを用いたKruskal-Wallis検定の結果は下の画像のようになった。

p値(Prob>ChiSq)の値が有意水準0.05より大きい為、今回用いたデータの平均値間では、有意差はないといえる。

・・・

5. 対応のあるデータ分析

今回用いるデータ(薬剤の投与前後における血圧)

5-1. 平均の比較(t検定)

手順

メニューの分析➡発展的なモデル➡対応のあるペアを選択。※下画像参考

その後現れるウィンドウの Y,対応のある応答に薬剤投与前後を割り当て、OKを押す。※下画像参考

すると、下画像が表示される。

今回は、p値(Prob<t)の値が0.0001以下と有意水準以下であるため、投与前血圧>投与後血圧となり薬物には血圧を下げる効果があるといえる。

上画像にはp値は3種類存在しているがどのp値を参考にするかは以下にまとめた。

B-Aを行った場合

A>Bを言いたい場合はP値(Prob<t)<0.05を確認すればいい。

A<Bを言いたい場合はP値(Prob>t)<0.05を確認すればいい。

また、P値(Prob>|t|)<0.05であれば、A≒Bが言える。

A-Bを行った場合

A>Bを言いたい場合はP値(Prob>t)<0.05を確認すればいい。

A<Bを言いたい場合はP値(Prob<t)<0.05を確認すればいい。

また、P値(Prob>|t|)<0.05であれば、A≒Bが言える。

5-2. Wilcoxonの符号付順位検定

対応のあるデータが正規分布に従っているとは限らない場合の平均値の比較に用いる。

手順

下画像に赤枠で示した▼をクリックし、Wilcoxonの符号付順位検定を選択すると画像➀が、符号検定を選択すると画像②が表示される。

画像➀

今回の場合、p値(prob<S)が有意水準より小さい為、薬の投与によって血圧が下がったことが分かる。

画像②

今回の場合p値(prob<M)が有意水準より小さい為、薬の投与によって血圧が下がったことが分かる。

・・・

6. ２つのデータ間の関係分析

今回用いるデータ

6-1. 相関係数

手順

分析➡二変量の関係➡X,説明変数に身長、Y,目的変数に体重を選択しokを押す。▼をクリックし、確率楕円の0.95を選択。新しく表示された二変量相関楕円の⇨をクリックすると下画像が表示される。

今回の場合相関が0.742と強い正の相関があるといえる。

また、p値より身長と体重には相関があるといえる。

※相関係数のp値は相関がない(r=0)の検定を行ったときのもので、これが有意水準以下だと相関があるといえる。

6-2. 順位相関係数

順位相関係数は、２つのデータの順位値の相関を見ることが出来、数量データが正規分布を仮定できない場合や、順序尺度データを用いる場合に使用される。

手順

分析➡多変量⇨多変量の相関を選択し、Y,列に身長と体重を選択ごokを押す。その後、▼をクリックし、ノンパラメトリック相関係数

・・・

7. 回帰分析

回帰分析とは

ある変数(目的変数)と、その他の変数(説明変数)との関係を解析する事。もしくは、その関係式を導き出す事。

その他の変数(説明変数)が一つの場合には単回帰分析、二つ以上の場合には重回帰分析と呼ぶ。

7-1. 単回帰分析

今回用いるデータ

12時時点の気温(説明変数)と1日のアイス売り上げ金額(目的変数)

手順

分析➡モデルのあてはめを選択後、表示されるウィンドウ(下画像)のYに売り上げ金額(目的変数)を、モデル効果の構成に気温(説明変数)を追加し、実行をクリック。

すると、下画像➀②③④が表示される。

画像➀(散布図と回帰直線)

画像②

赤線が回帰直線、淡い赤色の範囲が直線の95%信頼区間を表し、青い直線は売上(目的変数)の平均を示す。

95%信頼区間内に青線が全ておさまっていなければ、回帰式は統計的に有意といえる。

画像③

R²は、回帰式について目的変数が説明変数をどれくらい説明できるかを表す。

今回の場合は87%説明できることを示している。

また、RMSEは平均でどれくらい誤差が出るかを表す。

今回の場合は、回帰式によってアイスの売り上げを予想すると平均して2958.9円の誤差が出ることを示している。

画像④

パラメータ推定値項目の切片と12時時点の気温の推定値より、

回帰式は y=1100x+7193(y:金額,x:気温)となる。

7-2. 重回帰分析

今回用いるデータ

目的変数(アイス売り上げ金額)

説明変数(12時時点の気温・湿度)

手順

分析➡モデルのあてはめ⇨Yに金額、追加に気温・湿度を選択し実行。

その後、パラメータ推定値の枠内で右クリックし、列を選択し標準β・VIF・計画の標準誤差すべてにチェックを入れる。表示されるのは下画像➀②。

画像➀

湿度に関するてこ比プロットのp値が有意水準以上であるため、今回の偏回帰式から湿度を除外する必要があることが分かる。

画像②

パラメータ推定値項目の切片・気温・湿度の推定値から偏回帰式は

y=839.9x₁+87.53x₂+6477 (y:金額,x₁:気温,x₂:湿度)となる。

※推定値の符号がおかしいと思われる場合は、説明変数に強い相関があると想定できる。

また、分散分析のp値が有意水準以下だある為、この偏回帰式は意味があるといえる。

VIFが5以上の場合、多重共線性に注意しなければならない。

多重共線性:説明変数が多く、互いの相関が強いときの性質で回帰式の精度が悪くなる。

標準βは標準偏回帰係数を表し、これの絶対値が大きいほど目的変数に影響を与えていると考えることが出来る。

また、t値の絶対値は大きいほど、p値は小さいほど目的変数に影響を与える変数だといえる。

これらから、金額は湿度より気温の影響を受けることが分かる。

加えて、p値が0.5237と有意水準を上回っている湿度に関しては金額に影響を与えるが、回帰式の変数としては除外する必要があることを示す。(つまり、回帰式を求めたい場合気温と金額の単回帰分析をする必要がある。)

自由度調整R2乗の値は、この偏回帰式が84.88%目的変数を説明していることを表す。

※R2乗は、目的変数と関係の弱い説明変数が増えるほど大きくなるため、これを補正した自由度調整R2乗の値を用いる。

誤差の標準偏差が3066であるため、この回帰式では平均して3066円の誤差が出ることが分かる。

・

7-3. ロジスティック回帰分析

ロジスティック回帰分析は、連続尺度を説明変数に、目的変数に名義尺度や順序尺度を使用する場合に用いる回帰分析。いくつかの説明変数によって、名義尺度がある名義になる確率を求める。 (下の画像を用いて例を挙げると、ある年齢においての骨粗鬆症になる確率を求めることが出来る。)

今回用いたデータ

※JMPにおいて尺度は、文字コード順に優先され、優先された変数になる確率を求める。

つまり、今回のデータの場合ありになる確率を求めることになる。

この順を変更したい場合は、目的変数の列名をダブルクリックし、列プロパティーの値の順序を選択し、優先したいデータの順に尺度を追加する必要がある。

手順

分析➡モデルのあてはめ模を選択し、表示されるウィンドウのYに骨粗鬆症の有無、モデル効果の構成に年齢を追加し実行。その後表示されたロジスティックプロットの枠内で右クリックし行の凡例を選択。その後、骨粗鬆症の有無を選択しマーカをペアに設定しOKを押す(プロットを名義により色分けすることが可能)。名義ロジスティックのあてはめの▼をクリックし、オッズ比・混同行列を選択。すると以下画像➀②③が表示される。

画像➀