Investigating the chronological variation of popular song lyrics through lexical indices

 Journal of the Japanese Association for Digital Humanitiesに以下の論文が掲載されました(こちらからダウンロードすることができます)。

  • Yuichiro Kobayashi, Misaki Amagasa, & Takafumi Suzuki (2017). Investigating the chronological variation of popular song lyrics through lexical indices. Journal of the Japanese Association for Digital Humanities, 2(1), 90-107.
  • Abstract
    • Popular songs can be regarded as a fine representation of modern society and culture. In particular, the lyrics of popular songs are the most important aspect for understanding the sense of values and linguistic sensitivity in a given generation and community. The purpose of the present study is to investigate the chronological variation of popular Japanese songs using stylometric techniques. This study draws on the lyrics of 858 songs, which appeared on the Oricon annual top 20 single hit chart between 1976 and 2015. The linguistic features investigated in this study include five different types of lexical indices, namely (a) number of words, (b) parts-of-speech, (c) word types, (d) character types, and (e) vocabulary level. Multiple regression analysis was conducted to explore the chronological change in the frequencies of lexical indices. The results showed that the frequencies of word types and character types dramatically changed before and after 1990. Moreover, the usages of auxiliary verbs as well as lower level vocabulary became more prominent,whereas the frequencies of adjectival nouns and conjunctions decreased. The findings suggest that a turning point in cultural trends corresponds with the historically significant political and economic events, such as the end of the Showa era and the burst of the bubble economy.

2017年8月に購入した本・ご恵贈頂いた本

 以下の本を購入しました。

Text Mining in Practice with R

Text Mining in Practice with R

史上最強図解 これならわかる!ベイズ統計学

史上最強図解 これならわかる!ベイズ統計学

実例 クラスター分析

実例 クラスター分析

クラスター分析とその応用

クラスター分析とその応用

統計学のための数学教室

統計学のための数学教室

〈コーパス活用〉英語基本語を使いこなす [動詞・助動詞編]

〈コーパス活用〉英語基本語を使いこなす [動詞・助動詞編]

〈コーパス活用〉英語基本語を使いこなす [形容詞・副詞編]

〈コーパス活用〉英語基本語を使いこなす [形容詞・副詞編]

【CD2枚付】TOEIC L&Rテスト990点攻略 改訂版: 新形式問題対応 (Obunsha ELT Series)

【CD2枚付】TOEIC L&Rテスト990点攻略 改訂版: 新形式問題対応 (Obunsha ELT Series)

【新形式問題対応】 TOEIC(R)テスト リーディングだけ 300問

【新形式問題対応】 TOEIC(R)テスト リーディングだけ 300問

 そして、以下の本をご恵贈頂きました。心より感謝を申し上げます。

出るとこ集中10日間!  TOEIC®テスト リスニング編

出るとこ集中10日間! TOEIC®テスト リスニング編

機械学習を用いたコーパス分析入門

 来たる9月30日~10月1日、関西学院大学英語コーパス学会第43回大会が開催されます。*1 私は、2日目の午前中に「機械学習を用いたコーパス分析入門」というワークショップを担当いたします。非会員の方でも参加可能ですので、ご興味があればご参加くださいませ。以下は、学会に提出した本ワークショップの概要です。

 本ワークショップでは、近年コーパス言語学の分野でも盛んに利用されるようになってきた機械学習 (machine learning) の技術を紹介します。機械学習は、人間が持つ学習能力をコンピュータに持たせることを目指す人工知能の研究分野です。また、コンピュータにデータを解析させることで、データの背後に潜むパターンを発見(学習)させる技術のことを指します。そして、多くの場合、データから発見されたパターンは、新たなデータの予測に活用されます。
 機械学習の技術を用いることで、手作業では扱えないような大量のテキストデータを効率的に分析できるようになります。そして、パターンを発見するための十分な量のデータを用意すれば、人間が予測するよりも高い精度で予測を行うことが可能になります。さらに、予測に寄与したパターンを吟味することで、分析対象のテキストを特徴づける言語項目を特定することができます。
 コーパス言語学における機械学習の活用事例としては、テキストの著者推定やジャンル推定、英作文の自動採点、語彙や文法の使用に関する通時的分析などがあります。本ワークショップでは、このような事例を紹介しつつ、機械学習の基本を講義形式で詳しく説明します(ハンズオンの実習形式ではありません)。
 ワークショップの流れとしては、(1) 機械学習とは何か、(2) データの準備方法、(3) 具体的な仕組みと手順、(4) 分析結果の検証方法、(5) コーパス言語学における活用事例、を予定しています(諸般の事情で若干変更する場合があります)。なお、本ワークショップは初学者を対象としており、統計学などの事前知識を参加者に求めません。また、機械学習の手法を説明するにあたっては、可能な限り、分かりやすい言葉やイメージを使うことを心がけ、四則演算(足し算・引き算・掛け算・割り算)以外を使った数式は出しません。

 P.S. 本ワークショップと直接は関係しませんが、同じ頃に『Rによるやさしいテキストマイニング[機械学習編]』という本を出します。現在予約受付中ですので、こちらも是非(宣伝)。

*1:大会プログラムは、こちら (PDF) でご覧になれます。

『仕事に使えるクチコミ分析ーテキストマイニングと統計学をマーケティングに活用する』という本を刊行します

 来月、『仕事に使えるクチコミ分析ーテキストマイニング統計学マーケティングに活用する』という単著を刊行いたします 。

 クチコミ分析とは、膨大な消費者の声を「見える化」し、商品やサービスの改善に役立つヒントや気づきを得るための技術です。「あの商品はなぜ売れているのか?」、あるいは「この商品はなぜ売れていないのか?」といった疑問に答えてくれます。本書では、クチコミ分析で役立つテキストマイニング統計学の知識についてゼロから丁寧に説明します。プログラミング経験や数学に関する専門知識は一切必要ありません。

本書の特長

 本書では、クチコミ分析などの事例を使って、テキストマイニング統計学の基礎を解説しています。テキストマイニングと統計学の知識があれば、膨大な数のクチコミを効率的に分析し、商品開発や業務改善に関する気づきが得られます。 しかし、よほどの大企業でない限り、データ分析を専門とするチームを抱えていることはまれでしょう。また、商用のデータ分析ツールを導入するには莫大な予算が必要です。しかし、幸いなことに、特別なプログラミングや数学の知識がなくても簡単に使えるテキストマイニングのツールがいくつか存在します。本書では、マウス操作のみで高度な分析ができるKH Coderというフリーソフトウェアを使って、クチコミ分析に必要なテキストマイニングの技術をゼロから解説します。また、統計処理に関しては、多くの人になじみのあるExcelを使って、丁寧に手順を解説します。データ分析に統計処理はつきものですが、本書に出てくる計算は四則演算(足し算、引き算、掛け算、割り算)がほとんどです。したがって、本書を読むことで、誰でも手軽に基本的なテキストマイニングや統計処理を体験できます。*1
 また本書は、テキストマイニング統計学に関する理論的な解説をする本文と、KH CoderやExcelなどのツールの使い方を解説する「やってみよう!」という部分から構成されています。とりあえずテキストマイニング統計学についての知識を得たい、という方は、「やってみよう!」という部分を飛ばして読んでも構いません。本文だけを読んでも、ちゃんと話がつながるように書かれています。そして、一通りの内容を理解した上でツールの使い方を学ぶと、本書を2回楽むことができるでしょう。

対象読者

 本書の主な対象読者は、大学などでプログラミングや統計学を学んでいない文系の方、データ分析がはじめてという初心者の方です。特に、インターネット上のクチコミデータを活用してみたいけれど、忙しくて専門書を何冊も読む時間がないビジネスパーソンの方にお勧めです。

目次

 本書の目次は、以下のとおりです。本書を読むことで学べる技術の一部としては、特定の商品に関するクチコミの可視化(共起ネットワーク)、特定の商品に特徴的なクチコミの抽出(キーワード分析)、ポジティブなクチコミとネガティブなクチコミの集計(評判分析)などがあります。

  • 第1章 クチコミ分析を支える技術
  • 第2章 テキストマイニングの基本を学ぶ
    • データを構築する
    • コンピュータで言葉を分析する
    • 頻度を計算する
  • 第3章 統計学の基本を学ぶ
    • トレンドを可視化する
    • データの特徴を把握する
    • データのばらつきを分析する
  • 第4章 複数のデータを比較する
    • 割合を可視化する
    • 推測統計学の考え方を学ぶ
    • 差の大きさを数値にする
    • キーワードを自動で抽出する
  • 第5章 クチコミを可視化する
    • 単語の結びつきを数字にする
    • 単語の結びつきを可視化する
  • 付録

サポートサイト

 簡単なサポートサイトを公開いたしました。今後、本書に関わる有益な情報、正誤表などはこちらで共有いたします。

謝辞

 最後に、本書を出版する機会を与えてくださった技術評論社に心より感謝を申し上げます。企画段階から編集段階まで、同社の高屋卓也氏には大変お世話になりました。高屋氏なくして、本書は完成しなかったでしょう。また、KH Coderについては、作者の樋口耕一氏から多くのことをご教示いただきました。そして、小山弘美氏からは統計学の解説に関して、森本修氏からはテキストマイニングのビジネス応用に関して、多くの有益なご意見をいただきました。記して御礼申し上げます。

関連書籍

Rによるやさしいテキストマイニング

Rによるやさしいテキストマイニング

Rによるやさしいテキストマイニング [活用事例編]

Rによるやさしいテキストマイニング [活用事例編]

*1:プログラミングを使った本格的なテキストマイニングや統計処理を始めたい方には、『Rによるやさしいテキストマイニング』などがおすすめです。

IFCS 2017の特別セッション

 来たる2017年8月8〜10日に東海大学で行われる国際分類学会 (Conference of the International Federation of Classification) において、私が座長を務める"Text Classification"という特別セッションがあります。*1 このセッションでは、以下の5件の発表があります。

  • The stylometry on Japanese political documents (Yohei Ono)
  • Quantitative storyline structure of "The Tale of Utsuho" (Gen Tsuchiyama)
  • A comparative evaluation of feature selection methods (Wanwan Zheng and Mingzhe Jin)
  • The changes over time in Kōji Uno’s writing style (Xueqin Liu)
  • Automated speech scoring: A text classification approach (Yuichiro Kobayashi)

 直前のご連絡ではございますが、ご都合のつく方がいらっしゃいましたら、我々のセッションにお越し頂ければ幸いです。

*1:学会全体のプログラムは、こちらから見ることができます。