文章を科学する

 まもなく、李在鎬先生が編集された『文章を科学する』が出版されます。私は、第9章「英語の自動作文評価」を執筆いたしました。詳しい目次などは、以下をご覧くださいませ。

第1部 理論編 文章を科学する視点
1. 文章の科学が目指すもの 李在鎬 
2. 文章とは何か―日本語の表現面から見たよい文章 石黒圭
3. 作文と評価―日本語教育的観点から見たよい文章 伊集院郁子
 
第2部 技術編 文章の科学を支える技術
4. 文章の計量的分析 李在鎬
5. 文章の計量的分析ツール「KH Coder」―言語学的な分析のための設定と操作 樋口耕一
6. 自然言語処理における文章解析 河原大輔
7. 文章解析を目的とするウェブ基盤システム 長谷部陽一郎・久保圭・李在鎬
 
第3部 研究編 文章の科学を実践する研究
8. 学習者作文を科学する 李在鎬
9. 英語の自動作文評価 小林雄一郎
10. 文章の難易度を科学する 李在鎬・長谷部陽一郎

文章を科学する

文章を科学する

広告を非表示にする

英語の類語を使い分けるために(動詞+名詞編)

 来たる11月11日(土)、日本医科大学で、学術英語学会定期セミナー(第1回)「英語の類語を使い分けるために(動詞+名詞編)」を担当いたします。本セミナーの概要は、以下のとおりです。

母語話者が英語で論文を書く際,類語の使い分けが非常に大きな問題となります。日本語に訳した場合に同じ意味を持つ単語であったとしても,英語で同じように用いられるとは限りません。たとえば,同じ「要求する」という動詞でも,claimとrequireでは用法が異なります。言い換えると,その単語とよく一緒に使われる単語(コロケーション)が異なります。それらの動詞が取る目的語を調べてみると,claimはcompensationやdamageのような金銭的な補償を表す語を目的語に取ることが多く,requireはapproval(承認)やreturn(返還)などを目的語に取ることが多いです。このような類語の使い分けを確認するには,コーパスを使うのが一番です。コーパスを検索することで,ある動詞がどのような名詞と強く結びついているのかを瞬時に把握することができます。また,コーパスには数億〜数十億の単語が収録されているため,辞書では詳しく解説されていないような単語の用法を知ることも可能です。
 
本セミナーでは,コーパスに関する基本的な知識を身につけたあと,実際にコーパスを検索し,コロケーションの観点から類語の違いを確認する方法を学びます。具体的には,似たような意味を持つ動詞と結びつく名詞(目的語)の違いを扱います。

定員: 50名
対象: コーパスを利用して英語の語法を調べ、英語論文の執筆に役立てたい研究者(大学院生含む)。分野不問。
参加費: 2,500円(会員)、3,800円(一般)

 なお、こちらのセミナーは、こちらのページ(の下の方)から申し込めるようです。ご興味をお持ちの方がいらっしゃいましたら、是非ご参加くださいませ。

コーパスと多様な関連領域

 まもなく、英語コーパス研究シリーズ第7巻『コーパスと多様な関連領域』が出版されます。私は、第6章「コーパスと統計処理」を執筆いたしました。詳しい目次などは、以下をご覧くださいませ。

I コーパスと多様な関連領域 赤野一郎堀正広
1. はじめに
2. 本巻では扱われていない様々な関連領域
3. 本巻の各章の内容
4. おわりに

II コーパス生成文法 大名力
1. はじめに
2. コーパスデータから得られる情報
3. 対象・分類、頻度・確率、原因と結果
4. コーパス研究のパラダイム言語モデル
5. 言語能力・言語運用とコーパス
6. 心的実在物としての文法とコーパスコーパス(データ)の代表性
7. おわりに

III コーパス認知言語学 大谷直輝
1. 認知言語学の概要
2. 認知言語学コーパス
3. 認知言語学におけるコーパス分析例
4. コーパスを用いた認知言語学の広がり
5. 認知言語学から用法基盤の言語学

IV コーパスと体系機能文法 伊藤紀子
1. はじめに
2. 体系機能文法とは
3. 体系機能文法的英語コーパス研究の事例
4. 体系機能文法的コーパス研究に役立つツール
5. 応用可能な言語理論を目指して

V コーパスと法言語学 堀田秀吾
1. 法言語学とは
2. 狭義の法言語学におけるコーパスの応用例
3. 疑似コーパスの法言語学的利用
4. 広義の法言語学におけるコーパスの応用例
5. おわりに

VI コーパスと統計処理 小林雄一郎
1. はじめに
2. コーパス研究における統計の活用
3. 事例研究1 学習者の誤りのアソシエーション分析
4. 事例研究2 ランダムフォレストによる習熟度推定
5. おわりに

VII コンコーダンサーとデータの読み方 吉村由佳
1. はじめに
2. コンコーダンサーを用いた分析事例
3. おわりに

VIII コーパス作成の諸問題 小原平
1. はじめに
2. より正確な電子テキスト
3. 電子テキストの正確さについての責任の所在
4. テキストを電子化する
5. XMLの特徴
6. XMLXSLT
7. 妥当なXMLファイルを使った電子テキスト
8. XMLの要素名、属性名
9. XSLTの役割
10. TEIガイドライン
11. TEI準拠のXMLファイル
12. おわりに

英語コーパス研究シリーズ 第7巻?コーパスと多様な関連領域

英語コーパス研究シリーズ 第7巻?コーパスと多様な関連領域

2017年9月に購入した本・ご恵贈頂いた本

 以下の本を購入しました。

Text Mining With R: A Tidy Approach

Text Mining With R: A Tidy Approach

アンサンブル法による機械学習: 基礎とアルゴリズム

アンサンブル法による機械学習: 基礎とアルゴリズム

イメージでつかむ機械学習入門 ~豊富なグラフ,シンプルな数学,Rで理解する~

イメージでつかむ機械学習入門 ~豊富なグラフ,シンプルな数学,Rで理解する~

構文解析 (自然言語処理シリーズ)

構文解析 (自然言語処理シリーズ)

文脈解析- 述語項構造・照応・談話構造の解析 - (自然言語処理シリーズ)

文脈解析- 述語項構造・照応・談話構造の解析 - (自然言語処理シリーズ)

まずはこの一冊から 意味がわかる線形代数 (BERET SCIENCE)

まずはこの一冊から 意味がわかる線形代数 (BERET SCIENCE)

ふたたびの微分・積分

ふたたびの微分・積分

テストが導く英語教育改革

テストが導く英語教育改革

英語4技能評価の理論と実践: CAN-DO・観点別評価から技能統合的活動の評価まで

英語4技能評価の理論と実践: CAN-DO・観点別評価から技能統合的活動の評価まで

テストが導く英語教育改革

テストが導く英語教育改革

実例でわかる英語テスト作成ガイド

実例でわかる英語テスト作成ガイド

ETS TOEICのパート7実戦戦略

ETS TOEICのパート7実戦戦略

 そして、以下の本をご恵贈頂きました。心より感謝を申し上げます。

統計学図鑑

統計学図鑑

グラフをつくる前に読む本 一瞬で伝わる表現はどのように生まれたのか

グラフをつくる前に読む本 一瞬で伝わる表現はどのように生まれたのか

『Rによるやさしいテキストマイニング[機械学習編]』という本を刊行します

 9月21日、『Rによるやさしいテキストマイニング機械学習編]』という書籍を刊行いたします。目次などは出版社のウェブサイトで公開されていますが、ここでは、もう少し詳しくご紹介します。*1

どうして本書が書かれたのか

 本書は,拙著『Rによるやさしいテキストマイニング』続編です。『Rによるやさしいテキストマイニング』は、言語学や社会調査法の理論なども紹介しつつ、分析計画の立て方、分析データの収集方法や保存方法といったテキストマイニングの基礎から解説した本です。この本は、テキストマイニングに必要な知識と技術がコンパクトにまとめられているため、「テキストマイニングを始めてみたいが、何から手をつけてよいかわからない」という初心者の方から好評を頂きました。
 その続編である本書『Rによるやさしいテキストマイニング機械学習編』では、ビジネスや研究などの実務を想定し、より実践的な技術を紹介します。具体的には、以下のような技術を扱います。

  • インターネット上からテキストデータを収集するスクレイピングの技術
  • 文章の構造や意味を解析する自然言語処理の技術
  • 大きな頻度集計表を効率的に加工・変換する前処理の技術
  • データの背後に潜むパターンを発見し,そのパターンに基づく予測を行う機械学習の技術

 本書は、機械学習を用いたテキストマイニングに興味を持つ方が「最初の1冊」として読む本として書かれています。具体的には、数式を極力使わずに、わかりやすい言葉やイメージ図を使って、機械学習の仕組みを説明します。*2 また、テキストマイニングに活用できる便利なRのパッケージを厳選して紹介します。本書で紹介されているパッケージを利用することで、最先端のデータ解析手法を自分のビジネスや研究に応用することができるようになります。
 なお、本書の範囲を超える機械学習の詳細に関しては、読者の理解を助けるであろう文献を紹介します。それらの文献を読むことで、自分が興味を持ったデータ解析手法の原理や仕組みを深く理解することができるでしょう。*3

本書の対象読者は誰か

 前書『Rによるやさしいテキストマイニング』テキストマイニングの初心者が中級者を目指すための本であったのに対して、本書『Rによるやさしいテキストマイニング機械学習編』は中級者が上級者を目指すための本です。*4 従って、本書は、テキストマイニングの技術やRの基本操作に関する知識を持った読者を対象に書かれています。テキストマイニングの技術やRの基本操作から丁寧に復習したいという方には、前書『Rによるやさしいテキストマイニング』を先に一読したあとで、本書をお読みになることをおすすめします。しかし、Rやテキストマイニングにそれほど詳しくなくとも、プログラミングや統計処理などのデータ解析に関する知識を持つ読者であれば、本書だけを読むことも可能です。

本書をどのように読むべきか

 本書は、「第I部 テキストマイニング」と「第II部 機械学習」の2つのパートから構成されています。「第I部 テキストマイニング」では、自然言語処理スクレイピングなど、前書『Rによるやさしいテキストマイニング』で扱わなかった発展的な技術を紹介します。また、「第II部 機械学習」では、回帰、分類、クラスタリング、次元削減といった大規模なデータの背後に潜むパターンを発見するための手法を紹介します。本書は、原則として第1章から順番に読んでいく形式で書かれていますが、テキストマイニングの知識をある程度持っている読者であれば、どこか興味のある章や節から先に読むことも可能です。
 本書のサンプルデータやコードなどは、サポートサイトで公開する予定です。Windows 版とMac版がありますので、自分が使用するOSに合わせたデータセットをダウンロードしてください。また、本書の記述に誤りが見つかった場合、本書で紹介しているパッケージや関数の仕様が変更になった場合なども、サポートサイトで情報を共有します。
 本書を読むことで、読者の皆様の業務や研究がよりよいものになることを願っております。また、本書を通じて、1人でも多くの方が機械学習を用いたテキストに興味を持って頂けましたら幸いです。

謝辞

 最後に、本書を出版する機会を与えてくださったオーム社の皆様に感謝申し上げます。前著に引き続き、書籍編集局の担当者には、大変お世話になりました。また、本書の草稿に対して貴重なフィードバックをくださった村上明ケンブリッジ大学)、早川敦士(ホクソエム)、川口勇作愛知学院大学)、三宅真紀大阪大学)の各氏に御礼申し上げます。*5 そして、Tokyo.Rなどの勉強会で情報交換をさせていただいたRユーザーの皆様にも感謝いたします。

関連書籍

Rによるやさしいテキストマイニング

Rによるやさしいテキストマイニング

*1:以下の文章は、本書の「はじめに」の一部に加筆修正などを加えたものです。

*2:数式を読んで機械学習を勉強したい方向けの書籍は、すでに多くの良書が出版されています。

*3:読者が機械学習を使った論文を書く場合、本書よりも専門的な書籍や論文を適切に参照・引用することが求められるでしょう。そのような場合を想定し、本書では参考文献を意図的に多く紹介しています。

*4:「中級者」の定義は難しいですが、とりあえず、「前書『Rによるやさしいテキストマイニング』を読み終えた人、もしくはそれと同等の知識を持っている人」ということにしておきます。実際、『Rによるやさしいテキストマイニング機械学習編』の内容は、前書の「もう一歩先へ」や「コラム」などで言及されていた発展的な内容を中心に扱っています。

*5:これらの所属は、本書刊行当時のものです。