『Rによるやさしいテキストマイニング[機械学習編]』という本を刊行します

 9月21日、『Rによるやさしいテキストマイニング機械学習編]』という書籍を刊行いたします。目次などは出版社のウェブサイトで公開されていますが、ここでは、もう少し詳しくご紹介します。*1

どうして本書が書かれたのか

 本書は,拙著『Rによるやさしいテキストマイニング』続編です。『Rによるやさしいテキストマイニング』は、言語学や社会調査法の理論なども紹介しつつ、分析計画の立て方、分析データの収集方法や保存方法といったテキストマイニングの基礎から解説した本です。この本は、テキストマイニングに必要な知識と技術がコンパクトにまとめられているため、「テキストマイニングを始めてみたいが、何から手をつけてよいかわからない」という初心者の方から好評を頂きました。
 その続編である本書『Rによるやさしいテキストマイニング機械学習編』では、ビジネスや研究などの実務を想定し、より実践的な技術を紹介します。具体的には、以下のような技術を扱います。

  • インターネット上からテキストデータを収集するスクレイピングの技術
  • 文章の構造や意味を解析する自然言語処理の技術
  • 大きな頻度集計表を効率的に加工・変換する前処理の技術
  • データの背後に潜むパターンを発見し,そのパターンに基づく予測を行う機械学習の技術

 本書は、機械学習を用いたテキストマイニングに興味を持つ方が「最初の1冊」として読む本として書かれています。具体的には、数式を極力使わずに、わかりやすい言葉やイメージ図を使って、機械学習の仕組みを説明します。*2 また、テキストマイニングに活用できる便利なRのパッケージを厳選して紹介します。本書で紹介されているパッケージを利用することで、最先端のデータ解析手法を自分のビジネスや研究に応用することができるようになります。
 なお、本書の範囲を超える機械学習の詳細に関しては、読者の理解を助けるであろう文献を紹介します。それらの文献を読むことで、自分が興味を持ったデータ解析手法の原理や仕組みを深く理解することができるでしょう。*3

本書の対象読者は誰か

 前書『Rによるやさしいテキストマイニング』テキストマイニングの初心者が中級者を目指すための本であったのに対して、本書『Rによるやさしいテキストマイニング機械学習編』は中級者が上級者を目指すための本です。*4 従って、本書は、テキストマイニングの技術やRの基本操作に関する知識を持った読者を対象に書かれています。テキストマイニングの技術やRの基本操作から丁寧に復習したいという方には、前書『Rによるやさしいテキストマイニング』を先に一読したあとで、本書をお読みになることをおすすめします。しかし、Rやテキストマイニングにそれほど詳しくなくとも、プログラミングや統計処理などのデータ解析に関する知識を持つ読者であれば、本書だけを読むことも可能です。

本書をどのように読むべきか

 本書は、「第I部 テキストマイニング」と「第II部 機械学習」の2つのパートから構成されています。「第I部 テキストマイニング」では、自然言語処理スクレイピングなど、前書『Rによるやさしいテキストマイニング』で扱わなかった発展的な技術を紹介します。また、「第II部 機械学習」では、回帰、分類、クラスタリング、次元削減といった大規模なデータの背後に潜むパターンを発見するための手法を紹介します。本書は、原則として第1章から順番に読んでいく形式で書かれていますが、テキストマイニングの知識をある程度持っている読者であれば、どこか興味のある章や節から先に読むことも可能です。
 本書のサンプルデータやコードなどは、サポートサイトで公開する予定です。Windows 版とMac版がありますので、自分が使用するOSに合わせたデータセットをダウンロードしてください。また、本書の記述に誤りが見つかった場合、本書で紹介しているパッケージや関数の仕様が変更になった場合なども、サポートサイトで情報を共有します。
 本書を読むことで、読者の皆様の業務や研究がよりよいものになることを願っております。また、本書を通じて、1人でも多くの方が機械学習を用いたテキストに興味を持って頂けましたら幸いです。

謝辞

 最後に、本書を出版する機会を与えてくださったオーム社の皆様に感謝申し上げます。前著に引き続き、書籍編集局の担当者には、大変お世話になりました。また、本書の草稿に対して貴重なフィードバックをくださった村上明ケンブリッジ大学)、早川敦士(ホクソエム)、川口勇作愛知学院大学)、三宅真紀大阪大学)の各氏に御礼申し上げます。*5 そして、Tokyo.Rなどの勉強会で情報交換をさせていただいたRユーザーの皆様にも感謝いたします。

関連書籍

Rによるやさしいテキストマイニング

Rによるやさしいテキストマイニング

*1:以下の文章は、本書の「はじめに」の一部に加筆修正などを加えたものです。

*2:数式を読んで機械学習を勉強したい方向けの書籍は、すでに多くの良書が出版されています。

*3:読者が機械学習を使った論文を書く場合、本書よりも専門的な書籍や論文を適切に参照・引用することが求められるでしょう。そのような場合を想定し、本書では参考文献を意図的に多く紹介しています。

*4:「中級者」の定義は難しいですが、とりあえず、「前書『Rによるやさしいテキストマイニング』を読み終えた人、もしくはそれと同等の知識を持っている人」ということにしておきます。実際、『Rによるやさしいテキストマイニング機械学習編』の内容は、前書の「もう一歩先へ」や「コラム」などで言及されていた発展的な内容を中心に扱っています。

*5:これらの所属は、本書刊行当時のものです。