読者です 読者をやめる 読者になる 読者になる

機械学習と自然言語処理の技術を用いた習熟度推定―現状と課題

 『外国語教育メディア学会 (LET) 関西支部メソドロジー研究部会報告論集』第4号に、「機械学習自然言語処理の技術を用いた習熟度推定―現状と課題」という文章を書かせて頂きました。この論文では、習熟度推定の技術に関する現状と課題、そして、私たちがこれまで行ってきた研究の紹介をしています。

習熟度推定における目的変数と説明変数

 習熟度推定は、学習者が産出した言語データから習熟度が如実に反映されると思われる言語的特徴を抽出し、それらの特徴の頻度を統計的に解析するという手続きをとります。
 しかし、習熟度推定のプログラムを実装するにあたって、個々の研究者が向き合わなければならない問題がいくつかあります。最大の問題は、そもそも学習者の「習熟度」とは何なのか、というものです。習熟度推定のプログラムは、あらかじめ分析者が設定した習熟度の尺度(例えば、CEFRのレベルやTOEICのスコア)に基づいて、個々のデータのレベルを予測していきます。しかし、このようなアプローチをとる場合、レベルは何段階が適切か、レベルを区分する閾値をどのように明確にするか、尺度はどのように表されるのか、といった問題が大きな争点となります。
 また、別の問題として、いかに習熟度を測定するのか、ということも考えなければなりません。つまり、どのような言語的特徴に注目すれば、習熟度を正確に測定できるのか、という問題です。言語を自動評価する場合、人間の評価者と同じ構成概念を用いることが理想ですが、人間は自分の評価基準に関する全てを理解している訳ではありません。それゆえ、自動評価プログラムを実装するにあたっては、習熟度と関連性があると思われる言語項目を可能な限り網羅的に考慮する必要があるでしょう。
 このように、習熟度の自動推定では、習熟度の尺度(目的変数)の定義と、推定の手がかりとする言語的特徴(説明変数)の定義を避けて通ることはできません。しかしながら、これらの定義は、言語テスティングや第二言語習得の分野においても未解決の問題です。従って、実際の推定においては、対象となる学習者の特性、そして評価の目的に合わせて、目的変数と説明変数を個別に検討していく必要があります。

目的変数の予測に説明変数が寄与する度合いの推定

 習熟度の自動推定が持つ利点の1つは、個々の説明変数(言語項目)が目的変数(レベル)の予測に寄与する度合いを明らかにできることです。今回の論文では、著者たちが行った2つのパイロット・スタディを紹介しました。最初の研究は、スピーキングのデータを対象として、専門の評価者(人間)が判断したレベルを予測し、評価者が重視している言語的特徴を明らかにする試みです。そして、もう1つの研究は、ライティングのデータを対象として、別の評価システム(機械)が判断したレベルを予測し、そのシステムが重視している言語的特徴を明らかにする試みです。
 2つのパイロット・スタディの結果を見ると、予測精度はともに61〜63%で、予測に大きく寄与した言語的特徴は総語数と異語数でした。多くの自動採点システムは、これまで「言語の表面的な情報(語数や文の長さなど)のみに注目している」と批判されてきました。しかし、実際は、人間の評価者がつけたレベルも、自動採点システムと同様に、総語数や異語数と非常に高い相関関係を持っています。これは、興味深い結果だと思います。ただ、多くの語を使って長い文章を書く(もしくは、話す)には、構文や談話に関する知識や能力が求められるはずです。そして、そうであるならば、「語数」と「レベル」は、直接的な相関関係というよりは、疑似相関の関係にあるのかも知れません。この点については、今後の詳細な分析が求められるところです。