機械学習を用いたコーパス分析入門

 来たる9月30日~10月1日、関西学院大学英語コーパス学会第43回大会が開催されます。*1 私は、2日目の午前中に「機械学習を用いたコーパス分析入門」というワークショップを担当いたします。非会員の方でも参加可能ですので、ご興味があればご参加くださいませ。以下は、学会に提出した本ワークショップの概要です。

 本ワークショップでは、近年コーパス言語学の分野でも盛んに利用されるようになってきた機械学習 (machine learning) の技術を紹介します。機械学習は、人間が持つ学習能力をコンピュータに持たせることを目指す人工知能の研究分野です。また、コンピュータにデータを解析させることで、データの背後に潜むパターンを発見(学習)させる技術のことを指します。そして、多くの場合、データから発見されたパターンは、新たなデータの予測に活用されます。
 機械学習の技術を用いることで、手作業では扱えないような大量のテキストデータを効率的に分析できるようになります。そして、パターンを発見するための十分な量のデータを用意すれば、人間が予測するよりも高い精度で予測を行うことが可能になります。さらに、予測に寄与したパターンを吟味することで、分析対象のテキストを特徴づける言語項目を特定することができます。
 コーパス言語学における機械学習の活用事例としては、テキストの著者推定やジャンル推定、英作文の自動採点、語彙や文法の使用に関する通時的分析などがあります。本ワークショップでは、このような事例を紹介しつつ、機械学習の基本を講義形式で詳しく説明します(ハンズオンの実習形式ではありません)。
 ワークショップの流れとしては、(1) 機械学習とは何か、(2) データの準備方法、(3) 具体的な仕組みと手順、(4) 分析結果の検証方法、(5) コーパス言語学における活用事例、を予定しています(諸般の事情で若干変更する場合があります)。なお、本ワークショップは初学者を対象としており、統計学などの事前知識を参加者に求めません。また、機械学習の手法を説明するにあたっては、可能な限り、分かりやすい言葉やイメージを使うことを心がけ、四則演算(足し算・引き算・掛け算・割り算)以外を使った数式は出しません。

 P.S. 本ワークショップと直接は関係しませんが、同じ頃に『Rによるやさしいテキストマイニング[機械学習編]』という本を出します。現在予約受付中ですので、こちらも是非(宣伝)。

*1:大会プログラムは、こちら (PDF) でご覧になれます。