読者です 読者をやめる 読者になる 読者になる

データのばらつきを視覚化する (1)

 データのばらつきを視覚化する場合、箱ひげ図がよく用いられます。箱ひげ図では、最小値、下側ヒンジ、中央値、上側ヒンジ、最大値という5つの要約統計量が視覚化されるため、データのばらつきを直感的に理解することができます。今回は、irisデータにおけるsepal length(がくの長さ)を分析対象とします。このデータを使って、3つの群 (setosa, versicolor, virginica) ごとに箱ひげ図を描くには、以下のような処理を行います。

# 箱ひげ図
boxplot(iris$Sepal.Length ~ iris$Species, col = "green")

 上記のスクリプトを実行すると、以下のような図が表示されます。

f:id:langstat:20150228141001p:plain

 前述のように、箱ひげ図では、最小値、第1四分位点、中央値、第3四分位点、最大値(と外れ値)に情報を圧縮しているために、データの分布に関する詳細な情報は失われています。しかし、beeswarmパッケージを使って、箱ひげ図の上に個々のデータの分布を重ねて描くことができます。

# 個々のデータの分布を表示
library(beeswarm)
beeswarm(iris$Sepal.Length ~ iris$Species, col = "red", pch = 16, add = TRUE)

 上記のスクリプトを実行すると、以下のような図が表示されます。

f:id:langstat:20150228141927p:plain

 また、beanplotパッケージを使って、ビーンプロットという視覚化手法を用いることも可能です。

# ビーンプロット
beanplot(iris$Sepal.Length ~ iris$Species, col = "pink")

 上記のスクリプトを実行すると、以下のような図が表示されます。

f:id:langstat:20150228142334p:plain

 なお、データのばらつきの視覚化に関しては、以下の資料もご参照ください。

  • 林雄一郎 (2013). 「Rによる統計グラフ入門」 LET中部支部 第81回支部研究大会ワークショップ. slide