読者です 読者をやめる 読者になる 読者になる

Exploring error patterns in L2 spoken English with data mining techniques

corpus

 8月17〜19日に早稲田大学で開催されたPan-Pacific Association of Applied Linguistics (PAAL) 2014において、"Exploring error patterns in L2 spoken English with data mining techniques"という発表をしてきました。
 学習者の誤りを理解することは、言語研究者にとってのみならず、言語教師にとっても言語学習者にとっても重要なことです。そこで本研究では、誤りの情報と習熟度の情報が付与された学習者コーパスを用いて、初級者に顕著な誤りや上級者になっても犯しがちな誤りを明らかにすることを目的としています。
 分析データには、NICT JLE Corpusの誤り情報付きのデータセットを用いました。*1 このデータには、人手で付与された46種類の誤りタグが付与されています。
 以下は、7段階の習熟度別学習者グループをケースとし、データセット中に現れた全ての誤りの頻度を変数とする階層型クラスター分析とヒートマップの結果です。

f:id:langstat:20140623140128p:plain

 まず、学習者グループの分類結果を見ると、(1) レベル3〜5の学習者 (lower-level learners) と、(2) レベル6〜9の学習者 (upper-level learners) に大きく分かれています。言い換えると、それらの2つの学習者グループの間に、誤りの頻度パターンに関する大きな違いが存在するということが示唆されています。そこで、それらの2つの学習者グループを目的変数とし、個々の誤りの頻度を説明変数とする決定木を用いて、両グループの間の違いを視覚化しました。

f:id:langstat:20140623140140p:plain

 上記の決定木を見ると、両グループの間では、冠詞 (at)、動詞の語彙選択 (v_lxc)、前置詞の語彙選択 (prp_lxc1)、名詞の数 (n_num)、動詞の時制 (v_tns) に関する誤りの頻度が大きく異なることが明らかになりました。

  • Yuichiro Kobayashi (2014). Exploring error patterns in L2 spoken English with data mining techniques. Proceedings of PAAL 2014, pp.97-98. PDF

*1:本研究では、公開版の誤り情報付きデータに加えて、コーパス作成者の1人である和泉絵美氏より提供して頂いた50人分のデータを分析しています。