stat

対応分析の結果をバブルプロットにする

今回は、対応分析の結果をバブルプロットで表示する方法を紹介します。バブルの大きさをどう定義するかが問題になりますが、以下の例では、行ないしは列の総和を使っています。*1 分析データは、MASSパッケージのcaithを使います。*2 # パッケージの読み込み…

頻度差の検定の効果量としてファイ係数とクラメールのVを用いる

この記事は、頻度差の検定の効果量としてオッズ比を用いるという記事の続編です。今回は、効果量としてのファイ係数とクラメールのVについて書きたいと思います。 最初の分析データとしては、前回と同じ言語項目の正用と誤用の頻度を集計した分割表を使いま…

頻度差の検定の効果量としてオッズ比を用いる

コーパス分析で頻度差を検定する場合、カイ二乗検定や対数尤度比検定がよく使われます。しかし、このような検定には、サンプル・サイズが大きくなれば、実質的な差がなくとも、「有意差あり」という誤った結果が得られる危険性があります。そのようなときに…

ランダムフォレストのOOB errorのプロットに凡例をつける

今回は、ランダムフォレストにおけるOOB errorを視覚化する際に、凡例をつける方法を紹介します。以下は、irisデータに対して、ランダムフォレストを実行した例です。 # ランダムフォレスト library(randomForest) set.seed(1) rf.model <- randomForest(Spe…

MARSによる分類

RでMARS (Multivariate Adaptive Regression Splines) を実行するには、earthパッケージのearth関数を使います。なお、今回は、kernlabパッケージのspamを用いて、スパムメールの分類実験を行います。 # 分析データの読み込み library(kernlab) data(spam) #…

L1正則化による変数選択

今回は、glmnetパッケージを使って、L1正則化 (LASSO) による変数選択を行ってみます。分析データは、kernlabパッケージのspamデータセットとします。 まずは、L1正則化によるspam/nonspamの2値判別を行います。*1 # パッケージの読み込み library(glmnet) l…

クラスター分析におけるp値を計算する

今回は、Rのpvclustパッケージを用いて、クラスター分析におけるp値を計算してみます。分析データは、caパッケージのauthorとします。*1 以下の例では、相関係数と群平均法を用いたクラスター分析を行い、ブートストラップのリサンプリング数を1000回として…

分類精度を確認する

判別分析や決定木のような分類モデルを評価する場合、そのモデルの分類精度を確認するのが一般的です。*1 以下の例は、irisデータの判別分析です。 # 分析データ # 訓練データと実験データの作成 tr.index <- seq(1, nrow(iris), 2) iris.train <-iris[tr.in…

系統樹を描く (2)

前回の記事にもあるように、系統樹を描く場合、どの距離や結合法を用いるかによって、最終的に得られる結果が異なることがあります。勿論、個々の分析において、どの距離や結合法を用いるかは、データの性質や研究目的、あるいは分析者の仮説によっても変わ…

系統樹を描く (1)

今回は、系統樹によるクラスタリングを行います。系統樹とは、同系統のグループ内の親子関係を推定し、その結果を樹木の枝分かれに見立てて表現する手法のことです。樹根(樹木の根の部分)がある系統樹を有根系統樹と呼び、樹根がない系統樹を無根系統樹と…

複数のクラスタリング手法を組み合わせる

主成分分析であれ、対応分析であれ、クラスター分析であれ、クラスタリングには、それぞれ長所や短所があります。そこで、複数のクラスタリング手法を組み合わせることで、データの性質をより深く理解しようというアプローチがあります。今回は、その一例と…

ランダムフォレストによる分類に寄与した変数の分析

Rでランダムフォレストを実行するには、randomForestパッケージのrandomForest関数を使います。なお、今回は、kernlabパッケージのspamを用いて、スパムメールの分類実験を行います。 # 実験データの読み込み library(kernlab) data(spam) # 乱数の設定 set.…

情報量基準に基づく習熟度尺度の再検討

3月29日(土)、統計数理研究所で開催された言語研究と統計2014で、「情報量基準に基づく習熟度尺度の再検討」という発表をしてきました。 私は、言語処理や機械学習の技術を使って、英語学習者の書き言葉や話し言葉を自動評価する研究を行っています。自動…