Rによる感情分析

 本日、サイバーエージェントで開催される第60回R勉強会@東京 (Tokyo.R) において、「Rによる感情分析」というLTをします。発表スライドは、こちらから見ることができます。*1

  • 林雄一郎 (2017). 「Rによる感情分析」 第60回R勉強会@東京. slide

 LTなので、Rによるテキスト処理については殆ど説明していません。テキスト処理については、手前味噌ですが、以下の本などをご参照ください(本記事執筆直後にAmazonなどで紙版が品切れになってしまいましたが、kindle版PDF版なら今すぐに購入できます。*2

Rによるやさしいテキストマイニング

Rによるやさしいテキストマイニング

*1:普通にPDFをアップロードすると文字化けしたので、全てのスライドを画像に変換してからアップロードしています。その結果、スライドの解像度が若干落ちています。申し訳ございません。

*2:(追記)現時点では、楽天ブックス紀伊国屋ウェブストアにも在庫が若干あるようです。

広告を非表示にする

所属変更のご報告(2017年4月1日)

 本日、日本大学生産工学部の教養・基礎科学系(言語文化系列)に助教として着任いたしました。任期は3年です。主に、英語、初年次教育、2年次教育などの科目を担当します。
 前所属の東洋大学社会学部メディアコミュニケーション学科には、2年間という短い間ではありましたが、大変お世話になりました。
 今後とも引き続き、皆様のご指導・ご鞭撻を賜りますよう、何卒宜しくお願い申し上げます。

2017年3月に購入した本・ご恵贈頂いた本

 以下の本を購入しました。

R for Data Science: Import, Tidy, Transform, Visualize, and Model Data

R for Data Science: Import, Tidy, Transform, Visualize, and Model Data

無責任なテストが「落ちこぼれ」を作る―正しい問題作成への英語授業学的アプローチ (英語教師叢書)

無責任なテストが「落ちこぼれ」を作る―正しい問題作成への英語授業学的アプローチ (英語教師叢書)

テストの作り方 (英語教師の四十八手―英語授業のアイデア集)

テストの作り方 (英語教師の四十八手―英語授業のアイデア集)

英語テスト作成の達人マニュアル (英語教育21世紀叢書)

英語テスト作成の達人マニュアル (英語教育21世紀叢書)

英語リーディングテストの考え方と作り方

英語リーディングテストの考え方と作り方

公式TOEIC Listening & Reading 問題集2

公式TOEIC Listening & Reading 問題集2

顧客の声マネジメント―テキストマイニングで本音を「見る」

顧客の声マネジメント―テキストマイニングで本音を「見る」

“顧客の声”分析・活用術―テキストマイニングが拓く コールセンター高付加価値化への新たな提案

“顧客の声”分析・活用術―テキストマイニングが拓く コールセンター高付加価値化への新たな提案

テキストマイニングによるマーケティング調査 (KS理工学専門書)

テキストマイニングによるマーケティング調査 (KS理工学専門書)

 そして、以下の本をご恵贈頂きました。心より感謝を申し上げます。

自然言語処理と深層学習 C言語によるシミュレーション

自然言語処理と深層学習 C言語によるシミュレーション

データサイエンティスト養成読本 登竜門編 (Software Design plus)

データサイエンティスト養成読本 登竜門編 (Software Design plus)

2016年度の総括

 今年度は、おかげさまで単著を出せましたし、英語論文もいくつか書けましたので、まずまずの出来ではないかと思っています。これに満足せず、来年度を今年度以上に生産的な年に出来るように頑張りたいと思います。

  • 著書
  • 査読つき論文
    • Yuichiro Kobayashi (2016). Investigating metadiscourse markers in Asian Englishes: A corpus-based approach. Language in Focus: International Journal of Studies in Applied Linguistics and ELT, 2(1), 19-35.
    • Yuichiro Kobayashi (2016). Heat map with hierarchical clustering: Multivariate visualization method for corpus-based language studies. NINJAL Research Papers, 11, 25-36.
    • Yuichiro Kobayashi & Mariko Abe (2016). Automated scoring of L2 spoken English with random forests. Journal of Pan-Pacific Association of Applied Linguistics, 20(1), 55-73.
    • Yuichiro Kobayashi & Mariko Abe (2016). A corpus-based approach to the register awareness of Asian learners of English. Journal of Pan-Pacific Association of Applied Linguistics, 20(2), 1-17.
    • Kiyomi Chujo, Yuichiro Kobayashi, Atsushi Mizumoto, & Kathryn Oghigian (2016). Exploring the effectiveness of combined web-based corpus tools for beginner EFL DDL. Linguistics and Literature Studies, 4(4), 262-274.
  • 査読なし論文
    • (なし)
  • 国際会議
    • Yuichiro Kobayashi, Misaki Amagasa, & Takafumi Suzuki (2016). Investigating the chronological variation of lyrics of popular songs through lexical indices. International Quantitative Linguistics Conference 2016 (at Europäische Rechts Akademie, Germany)
    • Yuichiro Kobayashi & Akira Murakami (2016). Contrastive analysis of L2 speech and writing: A multi-dimensional approach. Asia Pacific Corpus Linguistics Conference 2016 (at Beihang University, China)
    • Yuichiro Kobayashi & Akira Murakami (2017). Variation across L2 speech and writing: A multidimensional study. Language in Focus 2017 (at Kaya Artemis Resort, Cyprus)
  • 国内会議
    • 林雄一郎 (2017). 「過去40年間の流行歌の歌詞から見る言語意識の変化」 ソーシャル・コンピュテーション学会 第6回研究例会(於 首都大学東京
    • 林雄一郎 (2017). 「多変量データの可視化手法の比較」 統計数理研究所言語系共同利用研究グループ公開セミナー「言語研究と統計2017」(於 統計数理研究所
    • 黒田航・浅尾仁彦・金丸敏幸・小林雄一郎・田川拓海・横野光・土屋智行・阿部慶賀 (2017). 「言語学は事例をどう扱っているのか?—見本抽出から明らかになった扱い方の(意外な)片寄り」 言語処理学会第23回年次大会 (於 筑波大学
    • 黒田航・阿部慶賀・横野光・田川拓海・小林雄一郎・金丸敏幸・土屋智行・浅尾仁彦 (2016). 「(言語学者による)容認度評定の認証システムを試作する構想」 日本認知科学会第33回大会(於 北海道大学
  • その他
広告を非表示にする

R初心者合宿講習会 (R Bootcamp) に関する資料

 ここには、R初心者合宿講習会 (R Bootcamp) のためのメモや練習問題が書かれています(工事中・随時更新)。なお、現在は、私が講師を務める部分に関するもののみを公開しています。

テキスト

R関連のメモまとめ

練習問題

  • (6.1節)RMeCabを使って、以下の文章を形態素解析しなさい。
    • 私はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は打ち明けない。これは世間を憚かる遠慮というよりも、その方が私にとって自然だからである。私はその人の記憶を呼び起すごとに、すぐ「先生」といいたくなる。筆を執っても心持は同じ事である。よそよそしい頭文字などはとても使う気にならない。
  • (6.2節)上記の一節から単語の頻度表を作成し、上位10語を表示しなさい。
  • (6.3節)テキストの付属データセットの「Data」フォルダ→「speech」フォルダの中にあるKoizumi.txtをRStudioにアップロードし、品詞3-gramを作成しなさい。
  • (6.4節)テキストの付属データセットの「Data」フォルダ→「speech」フォルダの中にあるAbe.txtをRStudioにアップロードし、「国」の共起語を集計しなさい(span = 2)。
  • (8.1節)以下のデータに対して、フィッシャーの正確確率検定とカイ自乗検定(イェーツの補正なし)を実行しなさい。
A新聞の購読者 B新聞の購読者
内閣支持 225 292
内閣不支持 275 208
  • (8.1節)上記のデータ(新聞の購読者)を用いて、オッズ比と、オッズ比の信頼区間を求めなさい。
  • (8.1節)上記のデータ(新聞の購読者)を用いて、クラメールのVと、クラメールのVの信頼区間を求めなさい。
  • (8.1節)以下のデータを用いて、モザイクプロットを描きなさい。
中学生 高校生 大学生
文頭のbecause 1565 941 218
文中のbecause 452 726 302
  • (8.1節)上記のデータ(because)に対して、カイ自乗検定(イェーツの補正なし)を実行し、多重比較も行いなさい。
  • (8.2節)Rのcarsデータセットを用いて、箱ひげ図つきの散布図を描きなさい。
  • (8.2節)Rのcarsデータセットを用いて、1列目(speed)と2列目(dist)の積率相関係数と順位相関係数を求めなさい。
  • (8.2節)Rのcarsデータセットの1列目(speed)と2列目(dist)を用いて、無相関検定を行いなさい。
  • (8.2節)Rのcarsデータセットを用いて、speedを説明変数、distを目的変数とする単回帰分析を行いなさい。また、その回帰直線を散布図に重ねて描きなさい。
  • (8.2節)Rのairqualityデータセットを表示し、MonthとDayの列を削除したあと、Solar.R、Wind、Tempの3つを説明変数、Ozoneを目的変数とする重回帰分析を行いなさい。
  • (9.1節)RのMASSパッケージにあるcaithデータセットを用いて、対応分析を行いなさい。
  • (9.1節)RのUSJudgeRatingsデータセットを用いて、クラスター分析で裁判官を分類しなさい。
  • (9.1節)こちらから泉鏡花岡本綺堂島崎藤村の読点の打ち方のデータをダウンロードし、全ての変数(文字+読点)の箱ひげ図を(1枚の画像として)描きなさい。また、その際、箱を緑色に塗り、変数のラベルを縦に表示すること。
  • (9.1節)上記の読点の打ち方のデータを用いて、全ての変数(文字+読点)の要約統計量(最小値、下側25%点、中央値、平均値、上側25%点、最大値)を一度に表示しなさい。
  • (9.1節)上記の読点の打ち方のデータを用いて、クラスター分析でテキストを分類しなさい。なお、csvファイルを読み込む際、文字コードcp932 を指定すること。*1
  • (9.2節)Rのirisデータセットを用いて、Speciesを目的変数とし、それ以外の4つの列を説明変数とする線形判別分析を行いなさい。その際、奇数行のデータを訓練データとし、偶数行のデータを評価データとしなさい。
  • (9.2節)RのTitanicデータセットを読み込み、install.packages("epitools"); library(epitools); Titanic1 <- expand.table(Titanic); head(Titanic1) というコードを実行しなさい。それから、Titanic1データセットを用いて、Survivedを目的変数とし、それ以外の列を説明変数とする決定木分析を行いなさい。
  • (10.2節)RのlanguageRパッケージにあるthroughデータセットを用いて、単語の頻度表と単語2-gramの頻度表を作成しなさい。

*1:文字コードの指定については、『Rによるやさしいテキストマイニング』のp. 101などを参照。