ゼロから始めるプログラミングの学習日記

未経験の状態からプログラミング初めます

課題:Rの基本的な準備・処理

Rにおける統計処理の準備・基礎

Rで統計処理していくための準備と基礎

目次

  1. 集計表の作り方
  2. .csvデータの読み込み
  3. データの種類
  4. データの整理
  5. パッケージの使用
  6. 演算子や関数など


集計表の作り方

基本的にデータは 縦方向(行)に被験体 / 横方向(列)に試験項目がくるようにテーブルを作る。
例としては以下の通り

試験項目1 試験項目2 試験項目3
被験体1 XXX YYY ZZZ
被験体2 XXX' YYY' ZZZ'
被験体3 XXX'' YYY'' ZZZ''


集計データ(csvファイル)の読み込み

集計されたデータは、csvファイルにして(txtの場合もあるので、そこは臨機応変に)取り込みたい。
今回は、irisのデータセットを使って練習したいので、

write.csv(iris, "Sample_iris.csv")
でirisのデータセットをSample_iris.csvというフォルダ名で書き出す。

excle,csv,txtなどのデータは必ず作業しているディレクトリ(同じファイル内)に保存すること。
そうでないとRは認識してくれない。
同じディレクトリに保存されたファイルを読み込むには、

read.delim("ファイル名.拡張子")を使う。
これだと、,で区切られたテキストデータとして読み込まれるようだ。
csvファイルを読み込むには、
read.csv("ファイル名.csv")を使う。
この場合は、テーブルの体裁を保って読み込まれる。


Rにおけるデータの種類

ここで、Rにおけるデータの種類を確認しておく

  • numeric型
    数値データのこと
    • 実数の場合はdouble型
    • 整数の場合はintegar型 となる。
  • factor型
    カテゴリデータのこと。
    factor型では、文字配列のカテゴリをダミー変数として扱うことができる。
    作図や統計解析の対象の場合はこちらを使用。
  • charactor型
    文字列を文字として扱う場合に使用し、変数としてカウントされない。
    注意書きのような文字データの場合はこちらを使用する。

基本的な統計では、上記3種類を使用するが、日付や時刻を扱う場合など、使う場面において様々な種類のデータの形がある。


データを整理する

  • ベクトル
    複数のデータの集合をベクトルという。
    このベクトルは必ずしも数値である必要はなく、文字列もベクトルとして扱われる。
文字、数値をベクトルとして扱いたい場合、
c()を使って、
c(1,2,3,4)
c("文字1","文字2","文字3")
とする。
  • データフレーム
    データフレームは行と列の2つの要素からなり、列が変数、行ごとに各変数の値が入力された構造となっている。
    例を挙げると

変数1 変数2 変数3
サンプル1 サンプル1の変数1 サンプル1の変数2 サンプル1の変数3
サンプル2 サンプル2の変数2 サンプル2の変数2 サンプル2の変数3
サンプル3 サンプル3の変数1 サンプル3の変数2 サンプル3の変数3

という感じ。
例えば、

性別 体重 身長
63.2 172.3
50.0 149.5
70.4 173.8

というデータフレームを作成したい場合は、

data.frame(
性別=c("男","女","男"),
体重=c(63.2,50.0,70,4),
身長=c(172.3,149.5,173.8)
)
とする。

  • オブジェクトの作成
    結果やデータを取り出すためにオブジェクト化する。
    例えば、先のデータフレームをdataという名前のオブジェクトに保管したい場合、

data <- data.frame(
性別=c("男","女","男"),
体重=c(63.2,50.0,70,4),
身長=c(172.3,149.5,173.8)
 )

とする。


パッケージを使用する

パッケージをインストールしたい場合は、

install.package()
パッケージをラブラリから呼び出す場合は、
library()
で呼び出す。
ライブラリからの呼び出しは、ファイル毎に行う。
「前回呼び出したから、今回は大丈夫かな?」とはならないので要注意。


演算子・条件式・数学関数・関数

  • 演算子

    加算 減算 乗算 除算 べき乗
    + - * / ^
    整数範囲での除算 整数範囲での除算数の剰余
    %/% %%
    代入 永続代入
    <- <<-

    代入では関数終了後に無効となるが、永続代入では代入終了後も有効。

  • 条件式

    等号 否定等号(≠) 以上 以下 より大きい より小さい 否定
    = != >= <= > < !

    論理積 条件での論理積 論理和 条件での論理和 排他的論理和 含まれる
    & && || xor() %in%
    • 要素の指定

    データセット中の要素の指定 ベクトル中の要素の指定
    $ []
  • 数学関数

    • 三角関数

    正弦関数 余弦関数 正接関数 sinの逆関数 cosの逆関数 tanの逆関数
    sin(x) cos(x) tan(x) asin(x) acos(x) atan(x)
    • 対数
    対数 yを底とした対数 10を底とした常用対数 2を底とした常用対数
    log(x) log(x,base=y) log10(x) log2(x)
    • 指数・平方根・絶対値
    指数(ex) 平方根 絶対値
    exp(x) sqrt(x) abs(x)
    • 整数部分・切り捨て
    整数部分 小数点以下yで切り捨て 切り捨て 切り上げ
    trunc(x) round(x,y) floor(x) ceiling(x)
    • 数列

    xからyまでの公差1の等差数列 xからyまでのz間隔の数列 ベクトルxをy回繰り返した数列
    x:y seq(x, y, by=z) rep(x, y)