R programming function データ解析で使う関数まとめ

Rプログラミングで使用する関数の中で、データ処理後に解析で頻繁に使う関数をまとめています。
自分が頻繁に使うものを順次追加していきます。
RDocumentationのリンクが貼ってありますので原文を参照して頂くのが最も正確ですが、日本語でも使うシチュエーションなど簡単に分かるように記載しています。

base (version 3.6.2)

table: Cross Tabulation and Table Creation

table(…,
      exclude = if (useNA == "no") c(NA, NaN),
      useNA = c("no", "ifany", "always"),
      dnn = list.names(…), deparse.level = 1)as.table(x, …)
is.table(x)# S3 method for table
as.data.frame(x, row.names = NULL, …,
              responseName = "Freq", stringsAsFactors = TRUE,
              sep = "", base = list(LETTERS))

データの前処理の記事にも記載しましたが、もちろん解析にも使えます
各要素ごとの数を算出してくれます

例としてHairEyeColorのサンプルを使っていきます

data = data.frame(HairEyeColor)
table(data$Eye)

このように各要素の要素数をカウントしてくれます

c = table(knn5Labneiset$keitou.x, knn5Labneiset$sumtxt)
c = as.data.frame(c) %>% arrange(desc(Freq))

その他にも複数の列でかつ、または、の要素の抽出も可能です
上のように複数要素で頻度の多い順に並べる事も出来ます

R table 複数要素 複数列

tableをdataframe化すると汎用性が格段に上がるのでとても良いです

mgcv (version 1.8-41)

plot.gam: Default GAM plotting

GAM分析をした際に連続変数を複数指定すると、それぞれのスプライン曲線が同時にグラフ出力されます
するとablineを用いてグラフを加工する際に最後のグラフのみが加工され、それ以前のものが加工できません
その時に役立つのがplot.gam::plotの中のselect機能です
select=2とすると2番目のスプライン曲線を描画してくれるのでそこにablineで加工を加える事が出来ます

a = plot(gam.model, main = "GAM", xlab = "days", ylab="log odds", xlim=c(0, 30), ylim=c(-2,1), select = 2)

abline(h = 0, lwd=2, lty=2)
タグ: ,