R初心者合宿講習会 (R Bootcamp) に関する資料

 ここには、R初心者合宿講習会 (R Bootcamp) のためのメモや練習問題が書かれています(工事中・随時更新)。なお、現在は、私が講師を務める部分に関するもののみを公開しています。

テキスト

R関連のメモまとめ

練習問題

  • (6.1節)RMeCabを使って、以下の文章を形態素解析しなさい。
    • 私はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は打ち明けない。これは世間を憚かる遠慮というよりも、その方が私にとって自然だからである。私はその人の記憶を呼び起すごとに、すぐ「先生」といいたくなる。筆を執っても心持は同じ事である。よそよそしい頭文字などはとても使う気にならない。
  • (6.2節)上記の一節から単語の頻度表を作成し、上位10語を表示しなさい。
  • (6.3節)テキストの付属データセットの「Data」フォルダ→「speech」フォルダの中にあるKoizumi.txtをRStudioにアップロードし、品詞3-gramを作成しなさい。
  • (6.4節)テキストの付属データセットの「Data」フォルダ→「speech」フォルダの中にあるAbe.txtをRStudioにアップロードし、「国」の共起語を集計しなさい(span = 2)。
  • (8.1節)以下のデータに対して、フィッシャーの正確確率検定とカイ自乗検定(イェーツの補正なし)を実行しなさい。
A新聞の購読者 B新聞の購読者
内閣支持 225 292
内閣不支持 275 208
  • (8.1節)上記のデータ(新聞の購読者)を用いて、オッズ比と、オッズ比の信頼区間を求めなさい。
  • (8.1節)上記のデータ(新聞の購読者)を用いて、クラメールのVと、クラメールのVの信頼区間を求めなさい。
  • (8.1節)以下のデータを用いて、モザイクプロットを描きなさい。
中学生 高校生 大学生
文頭のbecause 1565 941 218
文中のbecause 452 726 302
  • (8.1節)上記のデータ(because)に対して、カイ自乗検定(イェーツの補正なし)を実行し、多重比較も行いなさい。
  • (8.2節)Rのcarsデータセットを用いて、箱ひげ図つきの散布図を描きなさい。
  • (8.2節)Rのcarsデータセットを用いて、1列目(speed)と2列目(dist)の積率相関係数と順位相関係数を求めなさい。
  • (8.2節)Rのcarsデータセットの1列目(speed)と2列目(dist)を用いて、無相関検定を行いなさい。
  • (8.2節)Rのcarsデータセットを用いて、speedを説明変数、distを目的変数とする単回帰分析を行いなさい。また、その回帰直線を散布図に重ねて描きなさい。
  • (8.2節)Rのairqualityデータセットを表示し、MonthとDayの列を削除したあと、Solar.R、Wind、Tempの3つを説明変数、Ozoneを目的変数とする重回帰分析を行いなさい。
  • (9.1節)RのMASSパッケージにあるcaithデータセットを用いて、対応分析を行いなさい。
  • (9.1節)RのUSJudgeRatingsデータセットを用いて、クラスター分析で裁判官を分類しなさい。
  • (9.1節)こちらから泉鏡花岡本綺堂島崎藤村の読点の打ち方のデータをダウンロードし、全ての変数(文字+読点)の箱ひげ図を(1枚の画像として)描きなさい。また、その際、箱を緑色に塗り、変数のラベルを縦に表示すること。
  • (9.1節)上記の読点の打ち方のデータを用いて、全ての変数(文字+読点)の要約統計量(最小値、下側25%点、中央値、平均値、上側25%点、最大値)を一度に表示しなさい。
  • (9.1節)上記の読点の打ち方のデータを用いて、クラスター分析でテキストを分類しなさい。なお、csvファイルを読み込む際、文字コードcp932 を指定すること。*1
  • (9.2節)Rのirisデータセットを用いて、Speciesを目的変数とし、それ以外の4つの列を説明変数とする線形判別分析を行いなさい。その際、奇数行のデータを訓練データとし、偶数行のデータを評価データとしなさい。
  • (9.2節)RのTitanicデータセットを読み込み、install.packages("epitools"); library(epitools); Titanic1 <- expand.table(Titanic); head(Titanic1) というコードを実行しなさい。それから、Titanic1データセットを用いて、Survivedを目的変数とし、それ以外の列を説明変数とする決定木分析を行いなさい。
  • (10.2節)RのlanguageRパッケージにあるthroughデータセットを用いて、単語の頻度表と単語2-gramの頻度表を作成しなさい。

*1:文字コードの指定については、『Rによるやさしいテキストマイニング』のp. 101などを参照。