読者です 読者をやめる 読者になる 読者になる

『Rによるやさしいテキストマイニング』という本を刊行します

r corpus ling stat nlp

 2月17日、『Rによるやさしいテキストマイニング』という単著を刊行いたします。目次などは出版社のウェブサイトで公開されていますが、ここでは、もう少し詳しくご紹介します。*1

Rによるやさしいテキストマイニング

Rによるやさしいテキストマイニング

どうして本書が書かれたのか?

 近年、アンケートの自由回答データなどを定量的に分析するテキストマイニングの技法が大きな注目を集めています。Amazonで「テキストマイニング」という単語をタイトルに含む書籍を検索すると、本書執筆時点で30件以上ヒットします。しかし、「テキストマイニングを始めてみたいが、何から手をつけてよいか分からない」、「テキストマイニングの本はどれも難しい」などという声もしばしば聞こえてきます。これからテキストマイニングを始めてみようという人は、分析ツールの解説書で紹介されているような処理がなぜ必要なのか、あるいは、複数の手法の中で結局どれを選べばいいのか、といった疑問を抱くことがあります。また、実際の研究や業務のためのテキストデータをどのように集めればよいのか、が分からないという人もいます。そして、サンプルデータの分析ができるようになっても、本で学んだ技術が自分の研究や業務とどのようにつながるのか、というイメージが湧かない場合もあります。
 そこで本書では、単なるツールのハウツー本にならないように、データの収集方法、言語学や言語処理の分析手法に関しても詳しく解説します。類書には、「とりあえず、テキストマイニングを体験してみよう」という趣旨のもと、すぐにツールの使い方を紹介するものが多くあります。それに対して、本書では、「基礎編」でテキストデータの構築と分析に関する理論的な枠組みを学び、「準備編」でデータ収集やデータ分析の基本をひととおり身につけた上で、「実践編」のテキストマイニングに進みます。目次を見て頂ければ分かるように、全10章から構成される本書では、前半の5章が「基礎編」と「準備編」に割かれています。

本書の想定読者は誰か?

 本書で想定されている読者は、テキストマイニングに興味を持つ人文・社会科学系の大学生、商品企画やカスタマーサポートに関わるビジネスパーソンなどです。本書は、「テキストマイニングを学ぶと、どんなことができるようになるのか」、「テキストマイニングに必要な知識とは、一体何だろうか」、「高価なツールを使わずに、テキストマイニングをするにはどうしたらいいのか」といった疑問に答えます。
 これまで筆者は、複数の大学において、人文・社会科学系の受講生を対象とするテキストマイニングの授業を担当してきました。また、研究者向け、あるいはビジネスパーソン向けのセミナーで、テキストマイニングに関する講義をした経験もあります。それらの授業やセミナーの参加者の大半は、言語学統計学の知識を持たない人々です。本書には、筆者がこれまでに接してきた初心者たちに評判の良かった説明や実例が多く盛り込まれています。

本書を読むと何ができるようになるのか?

 本書を読むと、データの構築から分析まで、テキストマイニングに関する基本的な知識と技術をひととおり身につけることができます。また、単にツールの操作方法を知るだけでなく、どのようなときにどのような分析方法を用いるべきか、という判断がある程度できるようになります。
 本書では、テキストマイニングを行うにあたって、筆者が非常に重要であると思う技術のみを厳選して紹介します。それ以外の技術に関しては、別の文献を読む必要があります。しかし、本書では、より高度な書籍や論文を読み解くための足がかりを提供します。具体的には、より発展的な話題や技術に関して、コラムや脚注などで、次に読むべき文献を紹介します。また、必要に応じて、読者が自分でインターネット検索をするための検索キーワードの例を示します。筆者は、読者が単に本書に書かれた知識を得るだけでなく、たとえ書かれていないことであっても独力で調べられるようになるための手助けをしたいと考えています。

本書で使うツールは何か?

 本書では、主に、Rというデータ解析のソフトウェアを使用します。Rは、フリーウェアですので、誰でも自由にダウンロードして使用することができます。また、テキストマイニングだけでなく、様々なデータ解析機能を備えています。Rよりも使いやすい商用のテキスト分析ツールも存在しますが、お金のない学生や予算の限られた会社にとって、フリーウェアは非常にありがたいものです。そして、Rの使い方を1つずつ学んでいくことで、実際のデータ処理の過程をより深く理解することができます。

文系の読者でもテキストマイニングが使えるようになるのか?

 所謂「文系」の読者にとって、テキストマイニングのようなデータ処理は、あまり馴染みがないかも知れません。しかし現在、テキストマイニングは、社会学や政治学のような社会科学、文学や歴史学のような人文科学でも盛んに活用されています。データ解析の技術は、もはや「理系」だけのものではありません(筆者も、大学時代は文学部でアイルランド文学の研究をしていました)。本書が読者の研究や業務にテキストマイニングを導入するきっかけとなりましたら、筆者にとって望外の喜びであります。

謝辞

 本書を出版する機会を与えてくださったオーム社に心より感謝の意を表します。また、本書の草稿に対して貴重なご意見をくださった石田基広徳島大学)、金明哲同志社大学)、田中省作立命館大学)、岡﨑友子東洋大学)、村上明ケンブリッジ大学)、西原史暁(教育測定研究所)の各氏に御礼を申し上げます。*2 そして、オンラインや対面で多くのことを教えてくださったRコミュニティの皆様、本書で紹介しているツールを開発された方々にも感謝します。

*1:以下の文章は、本書の「はじめに」の一部に加筆修正などを加えたものです。

*2:これらの所属は、本書刊行当時のものです。