読者です 読者をやめる 読者になる 読者になる

A machine learning approach to the effects of writing task prompts

corpus

 5月31日〜6月1日に神戸大学で開催されたLearner Corpus Studies in Asia and the World (LCSAW) 2014において、"A machine learning approach to the effects of writing task prompts"という発表をしてきました。
 近年、世界中で様々な学習者コーパスが構築され、利用可能になっています。そして、それにともなって、複数の学習者コーパスを比較する研究も増えています。しかしながら、コーパスは特定の目的のための明示的なデザイン基準に沿って構築されたものであり、コーパスに基づく言語分析の結果は「コーパス次第」であるとも言われています。従って、異なる学習者コーパスのデータを比較する場合には、細心の注意が必要となります。
 今回の発表では、異なるトピックについて書かれたエッセイにおける言語使用を比較し、学習者の文章が課題文の影響を強く受けていることを示しました。分析データには、ICNALEを用いました。58種類の言語項目を説明変数とし、作文のトピック (PTJ, SMK) を目的変数とするランダムフォレストを行ったところ、その精度は91.2%でした。以下の図は、ランダムフォレストの分類結果を多次元尺度法で視覚化したものです。*1

f:id:langstat:20140522132156p:plain

 この結果は、異なるトピックで書かれたエッセイの間に、言語使用の大きな違いが認められたということを示しています。
 次に、ジニ係数の平均減分に注目し、2つのトピックについて書かれたエッセイには、どのような言語項目の頻度に違いがあるのかを特定しました。以下は、特に大きな差が見られた10種類の言語項目の頻度分布を箱ひげ図で視覚化したものです。

f:id:langstat:20140522132212p:plain

 そして、これら10種類の言語項目のうち、6種類の言語項目 (agentless passives, necessity modals, amplifiers, infinitives, attributive adjectives, other total nouns) は、エッセイの課題文で用いられているものです。

  • It is important for college students to have a part time job. (PTJ)
  • Smoking should be completely banned at all the restaurants in the country. (SMK)

 学習者のエッセイでは、しばしば課題文にある表現がそのまま使われます。従って、課題文の設定にあたっては、文の長さや使用語彙の難しさを揃えるだけでなく、文法項目や談話表現についても(可能な限り)統制されるべきだと考えられます。また、統制が難しい場合には、トピックや課題文が言語使用に与えている影響を事前に調査する必要があるでしょう。

  • Yuichiro Kobayashi & Mariko Abe (2014). A machine learning approach to the effects of writing task prompts. Learner Corpus Studies in Asia and the World, 2, 163-175. PDF

*1:因みに、今回の発表で行っている処理については、こちらの記事も参照してください。