何か新しいことを覚えようかなと思い、なんとなく始めました。
はじめに
タイトルに統計学入門とありますが、何か新しいことを覚えようかなと思い、近くの本屋でぶらぶらしていたら、データサイエンティスト養成読本 (2016年の第2版) のこの辺りを読み始め、気がついたら購入していたので、記録をつけることにしました。
- 特集1 第1章 Rで統計解析をはじめよう
- 特集2 第1章 Rによるマーケティング分析
読み進めていくと、いくつか理解が追いつかない部分があったので、以下の資料で補うことにしました。
インストール
MacにRとR Studioをインストールします。私のmacOS環境は以下の通りです。
|
|
RとR Studioのインストーラーを以下から入手します。
- R (執筆当時、R-3.4.3.pkg を使用しました。MD5: d51d0869f3cbe0d782eede113897393a)
- R Studio (執筆当時、RStudio 1.1.423 - Mac OS X 10.6+ (64-bit) を使用しました。MD5: 3e3e3db076b44f3c5276eb008614b4cf)
必須ではありませんが、配布サイトがインストーラーのハッシュを掲載していますので、ダウンロードしたファイルのハッシュを以下のように取得すれば照らし合わすことができます。
|
|
インストール自体は画面の指示に従って進めます。
zshユーザーの場合
ちなみに、zshを利用している場合は、zshビルドインのrとRのコマンドラインrが名前衝突します。 以下のコマンドでzshのrを無効にするといいと思います。
|
|
R Studioの基本的な使い方
ファイル作成と保存 (最初はこれすらわからなかった)
- File > New File > R Script で新規のRファイルを作る
- File > Save as… でRファイルを保存する
次に簡単なコードを書きます。<br/> 範囲選択をしてRunボタンを押すと、処理が実行されます。
|
|
ビルドインの関数がいくつかある様子。
- max: 最大値
- mean: 平均値
- var: 分散
- min: 最小値
|
|
例題1 アイスコーヒーの注文数を予測しよう
統計用言語Rの使い方で取り上げている次の例題を使い、線形回帰をして図を出力するところまで進めます。
- 「アイスコーヒーの注文数を予測しよう」<br/> https://markezine.jp/article/detail/16164
線形回帰そのものについては下記を参照ください。
散布図の出力
|
|
上の処理で出力されたのが次の散布図です。
回帰直線の追加 (線形回帰分析)
今回のコーヒーと気温を以下の数式で表してみます。
Rのコードでこのように出力できます。
|
|
ということなので、こうなります。
なので、先ほどの散布図にこのようなに直線が引けます。 (この線を回帰直線と呼ぶようです)
|
|
例題2 体重と身長
さて、ここからデータサイエンティスト養成読本の「特集1 第1章 Rで統計解析をはじめよう」の身長と体重を例題として用います。
データは以下からダウンロードできます。男女の身長と体重があります。
- https://gihyo.jp/book/2016/978-4-7741-8360-2/support (P.30 body_sample.csv)
データをCSVで読み込む
例題1ではデータは直打ちでした。<br/> ここではCSVからデータを読み込みます。
|
|
図に起こす
今回の体重と身長を以下の数式で表してみます。
上の図は以下のコードで出力しています。
|
|
線形回帰
前述のコードに geom_smooth(method = "lm") がありますが、これの調査をしておらず、<br/> 前例1の方法で分析してみたいと思います。
|
|
体重と身長の関係はweight = a x height +b になりますが、<br/> 以上の実行結果から、男女各々の体重と身長の関係は以下のようになります。
- 男性: weight = 0.7055 x height + (-49.8518)
- 女性: weight = 0.9005 x height + (-87.3478)
まとめ
この記事では以下のことを学習しました。
- R Studioの環境構築
- R Studioの基本操作
- 線形回帰 (浅め)
- 図が出て楽しい
次回は以下について学習したいと思います。
- 相関関係 (R)
- 回帰モデル (ロジスティック回帰)