読者です 読者をやめる 読者になる 読者になる

stringrを使った文字列処理 (1)

 今回は、stringrパッケージを使った文字列処理を紹介します。まず、str_length関数を使うと、文字列の長さを計算することができます。

# パッケージの読み込み
library(stringr)
# 文字列の長さ
str_length("have")

 上記のスクリプトを実行すると、以下のような結果が得られます。

[1] 4

 この関数は、文字列ベクトルに対して実行することも可能であるため、平均単語長を求める場合に便利です。

# 文字列ベクトルへの適用
str_length(c("I", "have", "a", "pen"))
# 平均単語長
mean(str_length(c("I", "have", "a", "pen")))

 上記のスクリプトを実行すると、以下のような結果が得られます。

# 文字列ベクトルへの適用
[1] 1 4 1 3
# 平均単語長
[1] 2.25

 また、str_split関数でboundary("word")と指定すると、複数の文字列から成るベクトルを綺麗に分割することができます。

# 文字列の分割
x <- "R is a free software environment for statistical computing and graphics."
str_split(x, boundary("word"))[[1]]

 上記のスクリプトを実行すると、以下のような結果が得られます。

 [1] "R"           "is"          "a"           "free"        "software"   
 [6] "environment" "for"         "statistical" "computing"   "and"        
[11] "graphics"