『ことばのデータサイエンス』という本を刊行します

 来月、『ことばのデータサイエンス』という書籍を刊行いたします。すでに目次や「はじめに」が出版社のウェブサイトで公開されていますが、ここでは、もう少し詳しくご紹介します。

ことばのデータサイエンス

ことばのデータサイエンス

本書の特色

 本書は、計量的な言語研究の入門書です。具体的には、コンピュータや統計を用いた言語学や文学の研究(データの設計や収集から分析までの一連の流れ)を解説しています。そして、過去に小生が研究論文や著書、ウェブサイトなどで発表してきた実データの分析事例が豊富に盛り込まれています。
 言うなれば、本書は、これまでに小生が発表してきた文章の「ベストアルバム」的な内容となっています。従って、小生の論文や著書をたくさん読んで頂いている方には既知の内容が含まれているかもしれません。しかし、「ことばのデータサイエンス」というテーマにそって全体の構成を決定し、過去に発表した文章の一部を再録する場合にも加筆修正を行なった「リミックスアルバム」となっています(勿論、書き下ろしの内容も多く含まれています)。
 なお、本書は、特定のソフトウェアのハウツー本ではありません。本書を特定のソフトウェアのハウツー本にしなかったのは、特定のソフトウェアに依存した研究では、そのソフトウェアの限界が研究そのものの限界となり得るからです。また、ハウツー本はすでに多く出版されている上に、操作方法などの説明が数年で古くなってしまう場合もあるからです。したがって、本書で紹介されている処理を読者が実際に行う際は、別途ソフトウェアのマニュアルや参考書を参照する必要があります 。ただ、読者の便を考慮し、本文や註釈などで、本書執筆時点でおすすめのソフトウェアなどを積極的に紹介しています。

本書の対象読者

 本書は、コンピュータを使った言語研究や文学研究に興味がある方データ分析を基礎から学びたい方に向けて書かれています(実際、本書の執筆段階では、「計量的言語研究への誘い」という副題がついていました)。具体的には、文学部や外国語学部で卒論や修論を書こうとする学生さん、計量的な言語研究の講義を担当する先生方、統計やデータ処理に興味を持つ言語研究者の方々に読んで頂くことを想定しています。
 しかし、言語学や文学の研究者以外、一般の方々にも読んで頂けるように、できるだけわかりやすい分析事例を取り上げ、専門用語などには註釈をつけています。また、主に文系の読者を想定し、統計処理の方法を解説する部分では、四則演算などによる簡単な計算式を超える内容に関しては、イメージ図や言葉で説明しています 。

本書の雰囲気

 いわゆる「入門書」の評価は、読者の知識の量や興味の方向性によって、大きく変わります(ある人にとっては簡単過ぎる本が別の人にとっては難し過ぎる、といったことが頻繁に起こります)。従って、本書に興味をお持ち頂いた方には、可能であれば、本書の実物をご覧になることをおすすめいたします
 しかし、近くに大きな書店などがない方もいらっしゃると思いますので、そういった方々にも本書の雰囲気を掴んで頂けるように、以下に内容の一部を公開します(これらは校正段階の文章であるため、最終的に出版された文章と若干異なる可能性があります)。なお、画像をクリックすると、拡大されて少し見やすくなります。

f:id:langstat:20190814135859p:plain
f:id:langstat:20190814135922p:plain
f:id:langstat:20190814135934p:plain
f:id:langstat:20190814140004p:plain
f:id:langstat:20190814140029p:plain
f:id:langstat:20190814140041p:plain
f:id:langstat:20190814140103p:plain
f:id:langstat:20190814140131p:plain
f:id:langstat:20190814140144p:plain
f:id:langstat:20190814140201p:plain
f:id:langstat:20190814140214p:plain
f:id:langstat:20190814140239p:plain

本書を超えて

 本書は、言語研究におけるデータ分析を学ぶための「最初の一冊」として書かれています。そこで、本書をきっかけにデータサイエンス、テキストマイニング自然言語処理などに興味を持った方々のために、サポートサイトで本書の次に読むべき書籍をいくつか紹介しています(随時、追加していきます)。
 また、本書で紹介されているような分析を実際にやってみたい方は、拙著『Rによるやさしいテキストマイニング』シリーズをお読み頂ければ幸いです。

Rによるやさしいテキストマイニング

Rによるやさしいテキストマイニング

Rによるやさしいテキストマイニング [活用事例編]

Rによるやさしいテキストマイニング [活用事例編]

2019年7月に購入した本・ご恵贈頂いた本

 以下の本を購入しました。

大学生のためのデータサイエンス (I)―オフィシャルスタディノート

大学生のためのデータサイエンス (I)―オフィシャルスタディノート

社会人のためのデータサイエンス入門 オフィシャル スタディノート 改定第2版

社会人のためのデータサイエンス入門 オフィシャル スタディノート 改定第2版

統計学〈1〉データ分析の基礎 オフィシャルスタディノート 改定第2版

統計学〈1〉データ分析の基礎 オフィシャルスタディノート 改定第2版

統計学?:推測統計の方法 オフィシャルスタディノート

統計学?:推測統計の方法 オフィシャルスタディノート

統計学?:多変量データ解析法オフィシャルスタディノート

統計学?:多変量データ解析法オフィシャルスタディノート

生徒のための統計活用?基礎編?

生徒のための統計活用?基礎編?

 そして、以下の本をご恵贈頂きました。心より感謝を申し上げます。

機械学習ガイドブック: RとPythonを使いこなす

機械学習ガイドブック: RとPythonを使いこなす

はじめてのRStudio: エラーメッセージなんかこわくない

はじめてのRStudio: エラーメッセージなんかこわくない

量子コンピュータが変える未来

量子コンピュータが変える未来

2019年6月に購入した本

 以下の本を購入しました。

ニューエクスプレスプラス マレー語《CD付》

ニューエクスプレスプラス マレー語《CD付》

旅の指さし会話帳15 マレーシア(マレーシア語)[第2版] (旅の指さし会話帳シリーズ)

旅の指さし会話帳15 マレーシア(マレーシア語)[第2版] (旅の指さし会話帳シリーズ)

  • 作者: 戸加里康子,おおのきよみ
  • 出版社/メーカー: 情報センター出版局
  • 発売日: 2010/04/23
  • メディア: 単行本
  • クリック: 2回
  • この商品を含むブログを見る
[音声DL] TOEIC L&Rテスト でる模試600問 <新形式対応版>

[音声DL] TOEIC L&Rテスト でる模試600問 <新形式対応版>

第49回JLTA研究例会「Rによる成績データ分析入門」ワークショップ

 来たる7月20日(土)、中央大学後楽園キャンパスで第49回JLTA研究例会「Rによる成績データ分析入門」というワークショップの講師を担当させて頂きます。7月13日(土)まで参加者を募集しておりますので、ご興味のある方は是非お越しくださいませ(ワークショップの詳細はこちら)。

  • 林雄一郎 (2019). 「Rによる成績データ分析入門」 第49回日本言語テスト学会 (JTLA) 研究例会.

 
(2019年7月20日追記)当日使用したスライドをこちらで公開しました。

LCR 2019から採択通知

 来たる9月12~14日、ポーランドワルシャワ5th Learner Corpus Research Conference (LCR 2019) が開催されます。そして、私が共同研究者となっている以下の発表も採択されています。(校務の関係で)私は現地に行けない可能性が高いですが、どうぞよろしくお願いいたします。

  • Abe, M., Kondo, Y., Kobayashi, Y., Murakami, A., & Fujiwara, Y. (2019). A longitudinal study of L2 spoken English: Development of fluency and pronunciation. 5th Learner Corpus Research Conference.