読者です 読者をやめる 読者になる 読者になる

検索語の生起位置の視覚化

 ある検索語に関して、その頻度を知るだけでなく、生起位置を知りたいことがあるでしょう。例えば、アカデミック・ライティングの研究で、introductionでよく使う表現、discussionでよく使う表現、conclusionでよく使う表現などのリストを作るかも知れません。または、文学作品の分析で、テキスト中におけるキーワードの生起位置を調べることで、テーマや文体の変化を見るかも知れません。そのような場合、concordance plotなどと呼ばれるバーコードのような図を作ることがあります。*1
 以下の例では、languageRパッケージのalice(『不思議の国のアリス』)を使って、"rabbit"という語と"queen"という語の生起位置を調べています。

# 分析データ
library(languageR)
data(alice)
# データの読み込み
corpus <- tolower(alice)
# 検索語の生起位置を視覚化
par(mfrow = c(2, 1))
plot(corpus == "rabbit", type = "h", yaxt = "n", main = "rabbit")
plot(corpus == "queen", type = "h", yaxt = "n", main = "queen")

f:id:langstat:20140508135949p:plain

 2つの語の生起位置を見ると、"rabbit"が主に物語の序盤と終盤に生起し、"queen"が物語の中盤以降に生起していることが分かります。

*1:例えば、AntConcでは、このような図を作ることができます。