Rにおける統計処理の準備・基礎
Rで統計処理していくための準備と基礎
目次
集計表の作り方
基本的にデータは
縦方向(行)に被験体 / 横方向(列)に試験項目がくるようにテーブルを作る。
例としては以下の通り
試験項目1 | 試験項目2 | 試験項目3 | |
---|---|---|---|
被験体1 | XXX | YYY | ZZZ |
被験体2 | XXX' | YYY' | ZZZ' |
被験体3 | XXX'' | YYY'' | ZZZ'' |
集計データ(csvファイル)の読み込み
集計されたデータは、csvファイルにして(txtの場合もあるので、そこは臨機応変に)取り込みたい。
今回は、irisのデータセットを使って練習したいので、
write.csv(iris, "Sample_iris.csv") でirisのデータセットをSample_iris.csvというフォルダ名で書き出す。
excle,csv,txtなどのデータは必ず作業しているディレクトリ(同じファイル内)に保存すること。
そうでないとRは認識してくれない。
同じディレクトリに保存されたファイルを読み込むには、
read.delim("ファイル名.拡張子")を使う。 これだと、,で区切られたテキストデータとして読み込まれるようだ。 csvファイルを読み込むには、 read.csv("ファイル名.csv")を使う。 この場合は、テーブルの体裁を保って読み込まれる。
Rにおけるデータの種類
ここで、Rにおけるデータの種類を確認しておく
- numeric型
数値データのこと- 実数の場合はdouble型
- 整数の場合はintegar型 となる。
- factor型
カテゴリデータのこと。
factor型では、文字配列のカテゴリをダミー変数として扱うことができる。
作図や統計解析の対象の場合はこちらを使用。 - charactor型
文字列を文字として扱う場合に使用し、変数としてカウントされない。
注意書きのような文字データの場合はこちらを使用する。
基本的な統計では、上記3種類を使用するが、日付や時刻を扱う場合など、使う場面において様々な種類のデータの形がある。
データを整理する
- ベクトル
複数のデータの集合をベクトルという。
このベクトルは必ずしも数値である必要はなく、文字列もベクトルとして扱われる。
文字、数値をベクトルとして扱いたい場合、 c()を使って、 c(1,2,3,4) c("文字1","文字2","文字3") とする。
- データフレーム
データフレームは行と列の2つの要素からなり、列が変数、行ごとに各変数の値が入力された構造となっている。
例を挙げると
変数1 | 変数2 | 変数3 | |
---|---|---|---|
サンプル1 | サンプル1の変数1 | サンプル1の変数2 | サンプル1の変数3 |
サンプル2 | サンプル2の変数2 | サンプル2の変数2 | サンプル2の変数3 |
サンプル3 | サンプル3の変数1 | サンプル3の変数2 | サンプル3の変数3 |
という感じ。
例えば、
性別 | 体重 | 身長 |
---|---|---|
男 | 63.2 | 172.3 |
女 | 50.0 | 149.5 |
男 | 70.4 | 173.8 |
というデータフレームを作成したい場合は、
data.frame( 性別=c("男","女","男"), 体重=c(63.2,50.0,70,4), 身長=c(172.3,149.5,173.8) )とする。
- オブジェクトの作成
結果やデータを取り出すためにオブジェクト化する。
例えば、先のデータフレームをdataという名前のオブジェクトに保管したい場合、
data <- data.frame( 性別=c("男","女","男"), 体重=c(63.2,50.0,70,4), 身長=c(172.3,149.5,173.8) )
とする。
パッケージを使用する
パッケージをインストールしたい場合は、
install.package()パッケージをラブラリから呼び出す場合は、
library()で呼び出す。
ライブラリからの呼び出しは、ファイル毎に行う。
「前回呼び出したから、今回は大丈夫かな?」とはならないので要注意。
演算子・条件式・数学関数・関数
演算子
加算 減算 乗算 除算 べき乗 + - * / ^ 整数範囲での除算 整数範囲での除算数の剰余 %/% %% 代入 永続代入 <- <<- 代入では関数終了後に無効となるが、永続代入では代入終了後も有効。
条件式
等号 否定等号(≠) 以上 以下 より大きい より小さい 否定 = != >= <= > < ! 論理積 条件での論理積 論理和 条件での論理和 排他的論理和 含まれる & && | || xor() %in% - 要素の指定
データセット中の要素の指定 ベクトル中の要素の指定 $ [] 数学関数
- 三角関数
正弦関数 余弦関数 正接関数 sinの逆関数 cosの逆関数 tanの逆関数 sin(x) cos(x) tan(x) asin(x) acos(x) atan(x) - 対数
対数 yを底とした対数 10を底とした常用対数 2を底とした常用対数 log(x) log(x,base=y) log10(x) log2(x) - 指数・平方根・絶対値
指数(ex) 平方根 絶対値 exp(x) sqrt(x) abs(x) - 整数部分・切り捨て
整数部分 小数点以下yで切り捨て 切り捨て 切り上げ trunc(x) round(x,y) floor(x) ceiling(x) - 数列
xからyまでの公差1の等差数列 xからyまでのz間隔の数列 ベクトルxをy回繰り返した数列 x:y seq(x, y, by=z) rep(x, y)