『Rによるやさしいテキストマイニング[機械学習編]』という本を刊行します

 9月21日、『Rによるやさしいテキストマイニング機械学習編]』という書籍を刊行いたします。目次などは出版社のウェブサイトで公開されていますが、ここでは、もう少し詳しくご紹介します。*1

どうして本書が書かれたのか

 本書は,拙著『Rによるやさしいテキストマイニング』続編です。『Rによるやさしいテキストマイニング』は、言語学や社会調査法の理論なども紹介しつつ、分析計画の立て方、分析データの収集方法や保存方法といったテキストマイニングの基礎から解説した本です。この本は、テキストマイニングに必要な知識と技術がコンパクトにまとめられているため、「テキストマイニングを始めてみたいが、何から手をつけてよいかわからない」という初心者の方から好評を頂きました。
 その続編である本書『Rによるやさしいテキストマイニング機械学習編』では、ビジネスや研究などの実務を想定し、より実践的な技術を紹介します。具体的には、以下のような技術を扱います。

  • インターネット上からテキストデータを収集するスクレイピングの技術
  • 文章の構造や意味を解析する自然言語処理の技術
  • 大きな頻度集計表を効率的に加工・変換する前処理の技術
  • データの背後に潜むパターンを発見し,そのパターンに基づく予測を行う機械学習の技術

 本書は、機械学習を用いたテキストマイニングに興味を持つ方が「最初の1冊」として読む本として書かれています。具体的には、数式を極力使わずに、わかりやすい言葉やイメージ図を使って、機械学習の仕組みを説明します。*2 また、テキストマイニングに活用できる便利なRのパッケージを厳選して紹介します。本書で紹介されているパッケージを利用することで、最先端のデータ解析手法を自分のビジネスや研究に応用することができるようになります。
 なお、本書の範囲を超える機械学習の詳細に関しては、読者の理解を助けるであろう文献を紹介します。それらの文献を読むことで、自分が興味を持ったデータ解析手法の原理や仕組みを深く理解することができるでしょう。*3

本書の対象読者は誰か

 前書『Rによるやさしいテキストマイニング』テキストマイニングの初心者が中級者を目指すための本であったのに対して、本書『Rによるやさしいテキストマイニング機械学習編』は中級者が上級者を目指すための本です。*4 従って、本書は、テキストマイニングの技術やRの基本操作に関する知識を持った読者を対象に書かれています。テキストマイニングの技術やRの基本操作から丁寧に復習したいという方には、前書『Rによるやさしいテキストマイニング』を先に一読したあとで、本書をお読みになることをおすすめします。しかし、Rやテキストマイニングにそれほど詳しくなくとも、プログラミングや統計処理などのデータ解析に関する知識を持つ読者であれば、本書だけを読むことも可能です。

本書をどのように読むべきか

 本書は、「第I部 テキストマイニング」と「第II部 機械学習」の2つのパートから構成されています。「第I部 テキストマイニング」では、自然言語処理スクレイピングなど、前書『Rによるやさしいテキストマイニング』で扱わなかった発展的な技術を紹介します。また、「第II部 機械学習」では、回帰、分類、クラスタリング、次元削減といった大規模なデータの背後に潜むパターンを発見するための手法を紹介します。本書は、原則として第1章から順番に読んでいく形式で書かれていますが、テキストマイニングの知識をある程度持っている読者であれば、どこか興味のある章や節から先に読むことも可能です。
 本書のサンプルデータやコードなどは、サポートサイトで公開する予定です。Windows 版とMac版がありますので、自分が使用するOSに合わせたデータセットをダウンロードしてください。また、本書の記述に誤りが見つかった場合、本書で紹介しているパッケージや関数の仕様が変更になった場合なども、サポートサイトで情報を共有します。
 本書を読むことで、読者の皆様の業務や研究がよりよいものになることを願っております。また、本書を通じて、1人でも多くの方が機械学習を用いたテキストに興味を持って頂けましたら幸いです。

謝辞

 最後に、本書を出版する機会を与えてくださったオーム社の皆様に感謝申し上げます。前著に引き続き、書籍編集局の担当者には、大変お世話になりました。また、本書の草稿に対して貴重なフィードバックをくださった村上明ケンブリッジ大学)、早川敦士(ホクソエム)、川口勇作愛知学院大学)、三宅真紀大阪大学)の各氏に御礼申し上げます。*5 そして、Tokyo.Rなどの勉強会で情報交換をさせていただいたRユーザーの皆様にも感謝いたします。

関連書籍

Rによるやさしいテキストマイニング

Rによるやさしいテキストマイニング

*1:以下の文章は、本書の「はじめに」の一部に加筆修正などを加えたものです。

*2:数式を読んで機械学習を勉強したい方向けの書籍は、すでに多くの良書が出版されています。

*3:読者が機械学習を使った論文を書く場合、本書よりも専門的な書籍や論文を適切に参照・引用することが求められるでしょう。そのような場合を想定し、本書では参考文献を意図的に多く紹介しています。

*4:「中級者」の定義は難しいですが、とりあえず、「前書『Rによるやさしいテキストマイニング』を読み終えた人、もしくはそれと同等の知識を持っている人」ということにしておきます。実際、『Rによるやさしいテキストマイニング機械学習編』の内容は、前書の「もう一歩先へ」や「コラム」などで言及されていた発展的な内容を中心に扱っています。

*5:これらの所属は、本書刊行当時のものです。

Investigating the chronological variation of popular song lyrics through lexical indices

 Journal of the Japanese Association for Digital Humanitiesに以下の論文が掲載されました(こちらからダウンロードすることができます)。

  • Yuichiro Kobayashi, Misaki Amagasa, & Takafumi Suzuki (2017). Investigating the chronological variation of popular song lyrics through lexical indices. Journal of the Japanese Association for Digital Humanities, 2(1), 90-107.
  • Abstract
    • Popular songs can be regarded as a fine representation of modern society and culture. In particular, the lyrics of popular songs are the most important aspect for understanding the sense of values and linguistic sensitivity in a given generation and community. The purpose of the present study is to investigate the chronological variation of popular Japanese songs using stylometric techniques. This study draws on the lyrics of 858 songs, which appeared on the Oricon annual top 20 single hit chart between 1976 and 2015. The linguistic features investigated in this study include five different types of lexical indices, namely (a) number of words, (b) parts-of-speech, (c) word types, (d) character types, and (e) vocabulary level. Multiple regression analysis was conducted to explore the chronological change in the frequencies of lexical indices. The results showed that the frequencies of word types and character types dramatically changed before and after 1990. Moreover, the usages of auxiliary verbs as well as lower level vocabulary became more prominent,whereas the frequencies of adjectival nouns and conjunctions decreased. The findings suggest that a turning point in cultural trends corresponds with the historically significant political and economic events, such as the end of the Showa era and the burst of the bubble economy.

2017年8月に購入した本・ご恵贈頂いた本

 以下の本を購入しました。

Text Mining in Practice with R

Text Mining in Practice with R

史上最強図解 これならわかる!ベイズ統計学

史上最強図解 これならわかる!ベイズ統計学

実例 クラスター分析

実例 クラスター分析

クラスター分析とその応用

クラスター分析とその応用

統計学のための数学教室

統計学のための数学教室

〈コーパス活用〉英語基本語を使いこなす [動詞・助動詞編]

〈コーパス活用〉英語基本語を使いこなす [動詞・助動詞編]

〈コーパス活用〉英語基本語を使いこなす [形容詞・副詞編]

〈コーパス活用〉英語基本語を使いこなす [形容詞・副詞編]

【CD2枚付】TOEIC L&Rテスト990点攻略 改訂版: 新形式問題対応 (Obunsha ELT Series)

【CD2枚付】TOEIC L&Rテスト990点攻略 改訂版: 新形式問題対応 (Obunsha ELT Series)

【新形式問題対応】 TOEIC(R)テスト リーディングだけ 300問

【新形式問題対応】 TOEIC(R)テスト リーディングだけ 300問

 そして、以下の本をご恵贈頂きました。心より感謝を申し上げます。

出るとこ集中10日間!  TOEIC®テスト リスニング編

出るとこ集中10日間! TOEIC®テスト リスニング編

機械学習を用いたコーパス分析入門

 来たる9月30日~10月1日、関西学院大学英語コーパス学会第43回大会が開催されます。*1 私は、2日目の午前中に「機械学習を用いたコーパス分析入門」というワークショップを担当いたします。非会員の方でも参加可能ですので、ご興味があればご参加くださいませ。以下は、学会に提出した本ワークショップの概要です。

 本ワークショップでは、近年コーパス言語学の分野でも盛んに利用されるようになってきた機械学習 (machine learning) の技術を紹介します。機械学習は、人間が持つ学習能力をコンピュータに持たせることを目指す人工知能の研究分野です。また、コンピュータにデータを解析させることで、データの背後に潜むパターンを発見(学習)させる技術のことを指します。そして、多くの場合、データから発見されたパターンは、新たなデータの予測に活用されます。
 機械学習の技術を用いることで、手作業では扱えないような大量のテキストデータを効率的に分析できるようになります。そして、パターンを発見するための十分な量のデータを用意すれば、人間が予測するよりも高い精度で予測を行うことが可能になります。さらに、予測に寄与したパターンを吟味することで、分析対象のテキストを特徴づける言語項目を特定することができます。
 コーパス言語学における機械学習の活用事例としては、テキストの著者推定やジャンル推定、英作文の自動採点、語彙や文法の使用に関する通時的分析などがあります。本ワークショップでは、このような事例を紹介しつつ、機械学習の基本を講義形式で詳しく説明します(ハンズオンの実習形式ではありません)。
 ワークショップの流れとしては、(1) 機械学習とは何か、(2) データの準備方法、(3) 具体的な仕組みと手順、(4) 分析結果の検証方法、(5) コーパス言語学における活用事例、を予定しています(諸般の事情で若干変更する場合があります)。なお、本ワークショップは初学者を対象としており、統計学などの事前知識を参加者に求めません。また、機械学習の手法を説明するにあたっては、可能な限り、分かりやすい言葉やイメージを使うことを心がけ、四則演算(足し算・引き算・掛け算・割り算)以外を使った数式は出しません。

 P.S. 本ワークショップと直接は関係しませんが、同じ頃に『Rによるやさしいテキストマイニング[機械学習編]』という本を出します。現在予約受付中ですので、こちらも是非(宣伝)。

*1:大会プログラムは、こちら (PDF) でご覧になれます。

『仕事に使えるクチコミ分析ーテキストマイニングと統計学をマーケティングに活用する』という本を刊行します

 来月、『仕事に使えるクチコミ分析ーテキストマイニング統計学マーケティングに活用する』という単著を刊行いたします 。

 クチコミ分析とは、膨大な消費者の声を「見える化」し、商品やサービスの改善に役立つヒントや気づきを得るための技術です。「あの商品はなぜ売れているのか?」、あるいは「この商品はなぜ売れていないのか?」といった疑問に答えてくれます。本書では、クチコミ分析で役立つテキストマイニング統計学の知識についてゼロから丁寧に説明します。プログラミング経験や数学に関する専門知識は一切必要ありません。

本書の特長

 本書では、クチコミ分析などの事例を使って、テキストマイニング統計学の基礎を解説しています。テキストマイニングと統計学の知識があれば、膨大な数のクチコミを効率的に分析し、商品開発や業務改善に関する気づきが得られます。 しかし、よほどの大企業でない限り、データ分析を専門とするチームを抱えていることはまれでしょう。また、商用のデータ分析ツールを導入するには莫大な予算が必要です。しかし、幸いなことに、特別なプログラミングや数学の知識がなくても簡単に使えるテキストマイニングのツールがいくつか存在します。本書では、マウス操作のみで高度な分析ができるKH Coderというフリーソフトウェアを使って、クチコミ分析に必要なテキストマイニングの技術をゼロから解説します。また、統計処理に関しては、多くの人になじみのあるExcelを使って、丁寧に手順を解説します。データ分析に統計処理はつきものですが、本書に出てくる計算は四則演算(足し算、引き算、掛け算、割り算)がほとんどです。したがって、本書を読むことで、誰でも手軽に基本的なテキストマイニングや統計処理を体験できます。*1
 また本書は、テキストマイニング統計学に関する理論的な解説をする本文と、KH CoderやExcelなどのツールの使い方を解説する「やってみよう!」という部分から構成されています。とりあえずテキストマイニング統計学についての知識を得たい、という方は、「やってみよう!」という部分を飛ばして読んでも構いません。本文だけを読んでも、ちゃんと話がつながるように書かれています。そして、一通りの内容を理解した上でツールの使い方を学ぶと、本書を2回楽むことができるでしょう。

対象読者

 本書の主な対象読者は、大学などでプログラミングや統計学を学んでいない文系の方、データ分析がはじめてという初心者の方です。特に、インターネット上のクチコミデータを活用してみたいけれど、忙しくて専門書を何冊も読む時間がないビジネスパーソンの方にお勧めです。

目次

 本書の目次は、以下のとおりです。本書を読むことで学べる技術の一部としては、特定の商品に関するクチコミの可視化(共起ネットワーク)、特定の商品に特徴的なクチコミの抽出(キーワード分析)、ポジティブなクチコミとネガティブなクチコミの集計(評判分析)などがあります。

  • 第1章 クチコミ分析を支える技術
  • 第2章 テキストマイニングの基本を学ぶ
    • データを構築する
    • コンピュータで言葉を分析する
    • 頻度を計算する
  • 第3章 統計学の基本を学ぶ
    • トレンドを可視化する
    • データの特徴を把握する
    • データのばらつきを分析する
  • 第4章 複数のデータを比較する
    • 割合を可視化する
    • 推測統計学の考え方を学ぶ
    • 差の大きさを数値にする
    • キーワードを自動で抽出する
  • 第5章 クチコミを可視化する
    • 単語の結びつきを数字にする
    • 単語の結びつきを可視化する
  • 付録

サポートサイト

 簡単なサポートサイトを公開いたしました。今後、本書に関わる有益な情報、正誤表などはこちらで共有いたします。

謝辞

 最後に、本書を出版する機会を与えてくださった技術評論社に心より感謝を申し上げます。企画段階から編集段階まで、同社の高屋卓也氏には大変お世話になりました。高屋氏なくして、本書は完成しなかったでしょう。また、KH Coderについては、作者の樋口耕一氏から多くのことをご教示いただきました。そして、小山弘美氏からは統計学の解説に関して、森本修氏からはテキストマイニングのビジネス応用に関して、多くの有益なご意見をいただきました。記して御礼申し上げます。

関連書籍

Rによるやさしいテキストマイニング

Rによるやさしいテキストマイニング

Rによるやさしいテキストマイニング: 機械学習編

Rによるやさしいテキストマイニング: 機械学習編

*1:プログラミングを使った本格的なテキストマイニングや統計処理を始めたい方には、『Rによるやさしいテキストマイニング』などがおすすめです。