ワードクラウドを作る

 今回は、wordcloudパッケージを使って、ワードクラウドを描いてみましょう。
 まずは、英語のワードクラウドを作る方法を説明します。ここでの分析データは、バラク・オバマ大統領の演説 (Obama.txt) とします。

# パッケージの読み込み
library(wordcloud)
# 単語ベクトルの作成
corpus.en <- tolower(scan("Obama.txt", what = "char", sep = "\n", quiet = TRUE))
word.vector.en <- unlist(strsplit(corpus.en, "([^-a-z0-9]+|--)"))
# ワードクラウドを作成
wordcloud(word.vector.en, min.freq = 2, random.order = FALSE)

 上記のスクリプトを実行すると、以下のようなワードクラウドが表示されます。*1

f:id:langstat:20140814142340p:plain

 次に、日本語のワードクラウドを作る方法を説明します。ここでの分析データは、安倍晋三内閣総理大臣の演説 (Abe.txt) とします。日本語のテクストを扱う場合は、以下のように、RMeCabパッケージを使用します。*2

# パッケージの読み込み
library(wordcloud)
library(RMeCab)
# 単語ベクトルの作成
corpus.jp <- RMeCabText("Abe.txt")
word.vector.jp <- unlist(sapply(corpus.jp, "[[", 1))
# ワードクラウドを作成
wordcloud(word.vector.jp, min.freq = 2, random.order = FALSE)

 上記のスクリプトを実行すると、以下のようなワードクラウドが表示されます。

f:id:langstat:20140814142357p:plain

*1:因みに、wordcloud関数の引数として、colors = brewer.pal(8, "Dark2") のような指定を行うと、単語の色分けをすることができます。

*2:Macでは、日本語をプロットするための設定を事前に行う必要があります。詳しくは、こちらの記事を参考にしてください。