2016年度 言語処理論B (Day 3)

 以下は、東京外国語大学の集中講義「言語処理論B」に関するメモです。

Class 11~15: 個人研究

データ収集

 この授業では、「Rを用いた日本語もしくは英語の分析」というテーマのレポートを書いてもらう予定です。細かいテーマ設定などは自由で、可能な限り、授業期間中に相談に乗ります。インターネット上には、様々な言語データがあります。以下は、その一部です。

 なお、インターネットから入手したデータには、本文以外の余分な情報が含まれていることが多いです。分析にあたっては、それらを事前に削除する必要があります。たとえば、青空文庫のルビのように、カッコに囲まれた部分を一括で削除するには、以下のような処理を行います。

  • サクラエディタをダウンロードし、インストールする
    • V2(Unicode版)の「最新版」を選択する
  • 明日《あした》 における 《あした》 のようなルビを削除するには、、、
    • テキストデータをサクラエディタにコピーする
    • メニューバーの「検索」から「置換」を選択する
    • 正規表現」の欄にチェックを入れる
    • 置換前を「《.*?》」とし、置換後には何も入れない
    • 「すべて置換」をクリック
  • 明日(あした) における (あした) のようなルビを削除するには、、、
    • 置換前を置換前を「(.*?)」とし、置換後には何も入れない
    • あとは、上記と同じ

 レポート作成に向けて、できるだけ授業時間中にデータ分析を終えることが望ましいです。

レポート執筆要領

 以下の要領で作成してください。締切から成績提出期限まで時間がないので、1秒でも締切を過ぎたレポートは採点しません

  • 締切: 2017年1月31日 23時59分(日本時間)
  • 提出先: kobayashi077 [あっとま~く] toyo.jp ([あっとま~く]の部分を@にしてください)
  • テーマ: Rを用いた日本語もしくは英語の分析
  • 書式
    • ワード (docx) で作成
    • A4で6~10枚、1ページあたり40文字×30行
    • 冒頭に、内容を適切に表現したタイトル、学籍番号と氏名を書くこと
    • 研究目的、分析データの概要、分析手順、分析結果、結果に対する考察(自分の言葉で)などを含めること
    • 参考文献を用いる場合は、きちんと明記すること
    • 最後に「付録」として、分析に使ったRスクリプトを記載すること(結果を得るための必要最低限でよい)
    • 細かい書式は自由だが、大学のレポートとして相応しい文章を心がけること
    • 図表や付録などが本文の3分の1を超えないこと

 レポートは、以下のような基準で採点する予定です(諸般の事情で、変更される可能性もあります)。

  • 問題設定(10点)
    • 実質科学的に意味のある問題設定がなされているか
  • 分析手順(20点)
    • データの入手方法および前処理、そしてデータ解析方法が適切か
  • 考察(10点)
    • データ分析から得られた結果に対して、適切な考察がなされているか
  • 書式(10点)
    • 大学のレポートとして相応しい形式に則っているか