読者です 読者をやめる 読者になる 読者になる

情報量基準に基づく習熟度尺度の再検討

corpus stat test

 3月29日(土)、統計数理研究所で開催された言語研究と統計2014で、「情報量基準に基づく習熟度尺度の再検討」という発表をしてきました。
 私は、言語処理や機械学習の技術を使って、英語学習者の書き言葉や話し言葉を自動評価する研究を行っています。自動評価の研究では、「どのような言語的特徴(説明変数)を使って評価するか」という研究が主に行われています。また、評価するにあたって、「どのような習熟度尺度(目的変数)を用いるか」という問題も存在します。
 教育測定の分野において、「習熟度尺度に何段階のレベルを含めるのが適切か」といった基準設定の問題は、これまでも大きな争点となってきました。今回の発表では、観測したデータ量や学習者の言語使用の実態を考慮し、(1) レベル判定の精度と、(2) モデル選択から見たレベル区分の良さを勘案しつつ、習熟度尺度としてのレベル区分を再検討することを目的としました。その際、レベル判定の精度は機械学習(ランダムフォレスト)で推定し、レベル区分の良さは情報量基準(AIC)で評価しました。
 そして、パイロット・スタディとして、アルクStandard Speaking Testを受験した1281人の日本人英語学習者の話し言葉データを用いて、「このデータに対しては、何段階の習熟度を設定すればよいのか」という分析を行いました。*1
 本実験では、学習者の習熟度と相関関係を持つと想定される63種類の言語項目を説明変数とし、評価者によって判定された習熟度(9段階)を目的変数としました。以下の図は、レベル区分の良さ(AIC)と判定精度(Accuracy)の関係を散布図で表し、回帰直線と平滑化曲線を重ね書きしたものです。
 f:id:langstat:20140327153439j:plain
 上の図における回帰直線を見ると、AICが小さくなるにつれて判定精度が下がっていくことが分かり、平滑化曲線を見ると、AICが825000のあたりから判定精度が急激に下がっていくことが分かります。*2なお、図中のは、AICとAccuracyの値を変数とする階層型クラスター分析*3によるクラスタリング結果を表しています。
 また、次の図は、上記の3つのクラスターにおけるレベル数の分布を視覚化したものです。*4
 f:id:langstat:20140327153840j:plain
 上記の2つの図からも分かるように、判定精度を重視すれば、レベル数が減少していく傾向にあり、レベル区分の良さを重視すれば、レベル数は維持される傾向が見られます。ここでの問題は、どちらの基準をどの程度重視するかという点です。
 以下の図は、隣接する2つのレベルが別のレベルとして区分される割合の推移を表したものです(横軸が判定精度、縦軸が区分される割合)。
 f:id:langstat:20140327153443j:plain
 この図を見ると、レベル1と2、レベル2と3、レベル6と7、レベル8と9は、判定精度が90%以上に達した場合においても、50%以上の割合で別のレベルとして区分されていることが分かります。*5 また、レベル3と4、レベル4と5、レベル5と6などは、判定精度が80%前後で、別のレベルとして区分される割合が50%を下回っています。*6
 Standard Speaking Testの最大の特徴は、ACTFL OPIの枠組みを改良し、「日本人の英語学習者に多い中級レベルを詳細に測定できるように」レベルを細かく分けていることだと言われています。しかしながら、今回の分析では、一定の判定精度を担保するという観点から見て、その「中級レベル」が細かく分けられ過ぎている可能性が示唆されました。そもそも、習熟度尺度における一定の範囲に判定される人数が多いからレベルを細分化するというのは、言語学的にも教育学的にも妥当ではありません。仮に何らかの理由で細分化するにしても、レベル区分と判定精度の関係は慎重に検討されるべきでしょう。*7
 なお、今回の我々の分析結果は暫定的なものであり、今後より詳しい量的・質的分析を行っていく必要があります。しかし、今回提案した方法によって得られるような情報は、言語テストでレベル区分を設定する際に、1つの有力な判断材料となるのではないでしょうか。
 本研究の詳細に関しては、以下の小林・田中・阿部 (2014) をご覧ください。また、その論文で引用されている小林・阿部 (2013) のリンクも一緒に貼っておきます。

 以下は、上記の小林・田中・阿部 (2014) の正誤表です(2014年4月2日更新)。

  • p.31, l.6 「Speaking Standard Test (SST)」
    • 正しくは、「Standard Speaking Test (SST)」
  • p.41, l.3 「1つのレベルにまとめられる割合が50%を下回っている」
    • 正しくは、「別のレベルとして区分される割合が50%を下回っている」

*1:習熟度の数が多いほど、(理論的には)きめ細やかな評価を行うことができます。しかし、あまりに数を増やし過ぎると、測定誤差の影響で誤った評価をする可能性も増えてしまいます。

*2:AICは、その値が小さいほど、レベル区分が良いことを示しています。

*3:ユークリッド距離と最長一致法を使用しました。

*4:この図は、beanplotと言います。

*5:つまり、それらのレベルの学習者のパフォーマンスには、何らかの違いがあるということを示しています。

*6:つまり、一定の精度を担保したい場合には、これらのレベルが1つにまとめられるべきであることを示しています。

*7:本来、Standard Speaking Testのような目標基準準拠テストでは、あらかじめ明確に定義された知識や技能のレベルの基準が設定されており、そのレベルに受験者が達しているか否か、あるいは、複数のレベルのうちどのレベルに達しているかを測定します。言い換えれば、各受験者のパフォーマンスは、他の受験者のパフォーマンスとではなく、定義された基準と比較されるべきものです。