SegmentAntとAntConcによる日本語テキストの解析

 日本語のテキストを解析する場合、一般的に、(1) 文章を単語単位に分かち書きし、(2) 単語の頻度や用例を分析する、という2段階の手順が取られます。

文章の分かち書き

 日本語の文章は、単語と単語の間に区切りがなく、コンピュータで単語を分析する場合に不都合が生じます。この問題を解決するために、形態素解析という処理を行い、文章を単語単位に分かち書きします。
 日本語の文章を分かち書きするソフトウェア(形態素解析器)には様々なものがあります。ここでは、早稲田大学Laurence Anthony氏が開発したSegmentAntを用います。このソフトを使うには、まずUTF-8の形式で保存されたテキストファイルを用意します。*1 次に、ダウンロードしたSegmentAntをダブルクリックして、起動します。*2 そして、[Input Files]にチェックを入れてから、メニューバーの[File]から[Open File(s)...]を選択し、UTF-8の形式で保存したテキストファイルを読み込みます。その後、画面下の[Language][Japanese]とし、[Segment Character][Half space]を指定し、[Start]をクリックします。解析が終わると、分かち書きされたテキストファイルが、元のファイルと同じフォルダに生成されます。なお、このソフトウェアの詳しい使い方は、ヘルプを参照してください。

単語の分析

 分かち書きされたテキストの解析には、AntConcを用います。*3 このソフトウェアでは様々な分析をすることができますが、まずは、メニューバーの[File]から[Open File(s)...]を選択し、分かち書きされたテキストファイルを読み込みます。そうすると、画面左の[Corpus Files]のところに、読み込んだファイルの名前が表示されます。次に、[File View]タブを選択してから、読み込んだファイル名をクリックし、読み込んだファイルの中身を確認します。ここでテキストの内容が正しく表示されれば、ファイルの読み込みが完了しています。ファイルが正しく読み込まれた状態で[Word List]タブを選択し、[Start]をクリックすると、単語の頻度表が作成されます。また、[Concordance]タブを選択し、検索窓に任意の単語を入力してから[Start]をクリックすると、検索した単語の用例一覧が表示されます。なお、これ以外の機能については、ヘルプを参照してください。

*1:UTF-8で保存する方法は、こちらのページなどを参照してください。

*2:起動時にエラーが出る場合は、古いバージョンを試してみてください。

*3:このようなテキスト分析ツールをコンコーダンサーと言います。