corpus

日本大学生産工学部研究報告B 51

勤務先が発行している紀要に共著論文が2本掲載されました。これらは、研究分担者として参画している科研プロジェクトの成果です。 中條清美・濱田彰・若松弘子・小林雄一郎・横田賢司・内山将夫・赤瀬川史朗・Michelle Johnson・西垣知佳子 (2018). 「教育用…

APCLC 2018から採択通知

来たる2018年9月17〜19日に高松で開催されるThe Asia Pacific Corpus Linguistics Conference (APCLC) 2018に採択されました。現在、研究分担者として参画している科研プロジェクトで収集しているスピーキングデータを使った習熟度推定実験に関する報告です…

テキストマイニング2018

来たる6月9〜10日、同志社大学でセミナー「テキストマイニング2018」が開催されます。そこで、私も急遽お話しさせて頂くことになりました*1。このような発表の機会を頂きましたことに、心から感謝を申し上げます。なお、全体のプログラムについては、こちら…

ライティングの自動採点で語順はどのように扱われるか

大修館書店の『英語教育』2018年4月号(特集:語順から始める基礎固め)に「ライティングの自動採点で語順はどのように扱われるか」というコラムを書かせて頂きました。具体的には、構文解析やn-gram分析による自動採点の話を扱っています。ご興味がありま…

Corpus Linguistics in Asia: Current Developments and Future Challenges

来たる7月10~11日、マレーシアのマラヤ大学でThe 12th International Free Linguistics Conferenceが開催されます。そして、11日には、"Corpus Linguistics in Asia: Current Developments and Future Challenges"というコロキアムがあります(私もオーガナ…

TaLC2018から採択通知

来たる2018年7月18〜21日にイギリスのケンブリッジで開催されるTeaching and Learning Corpora (TaLC) 2018に2件採択されました。 Abe, M., Kondo, Y., Kobayashi, Y., Murakami, A., & Fujiwara, Y. (2018). Initial findings from a longitudinal learner …

Developmental patterns of metadiscourse in second language writing

Journal of Pan-Pacific Association of Applied Linguisticsというジャーナルに、以下の論文が掲載されました(こちらからダウンロードすることができます)。 Yuichiro Kobayashi (2017). Developmental patterns of metadiscourse in second language wri…

ワードクラウドは本当にわかりやすい可視化の方法なのか?

近年、テキストマイニングの結果をワードクラウドと呼ばれる方法で可視化するのが流行しています。 文章中で出現頻度が高い単語を複数選び出し、その頻度に応じた大きさで図示する手法。ウェブページやブログなどに頻出する単語を自動的に並べることなどを指…

文章を科学する

まもなく、李在鎬先生が編集された『文章を科学する』が出版されます。私は、第9章「英語の自動作文評価」を執筆いたしました。詳しい目次などは、以下をご覧くださいませ。 第1部 理論編 文章を科学する視点 1. 文章の科学が目指すもの 李在鎬 2. 文章とは…

英語の類語を使い分けるために(動詞+名詞編)

来たる11月11日(土)、日本医科大学で、学術英語学会定期セミナー(第1回)「英語の類語を使い分けるために(動詞+名詞編)」を担当いたします。本セミナーの概要は、以下のとおりです。 非母語話者が英語で論文を書く際,類語の使い分けが非常に大きな問題…

コーパスと多様な関連領域

まもなく、英語コーパス研究シリーズ第7巻『コーパスと多様な関連領域』が出版されます。私は、第6章「コーパスと統計処理」を執筆いたしました。詳しい目次などは、以下をご覧くださいませ。 I コーパスと多様な関連領域 赤野一郎・堀正広 1. はじめに 2. …

『Rによるやさしいテキストマイニング[機械学習編]』という本を刊行します

9月21日、『Rによるやさしいテキストマイニング[機械学習編]』という書籍を刊行いたします。目次などは出版社のウェブサイトで公開されていますが、ここでは、もう少し詳しくご紹介します。*1 Rによるやさしいテキストマイニング: 機械学習編作者: 小林雄…

Investigating the chronological variation of popular song lyrics through lexical indices

Journal of the Japanese Association for Digital Humanitiesに以下の論文が掲載されました(こちらからダウンロードすることができます)。 Yuichiro Kobayashi, Misaki Amagasa, & Takafumi Suzuki (2017). Investigating the chronological variation of…

機械学習を用いたコーパス分析入門

来たる9月30日~10月1日、関西学院大学で英語コーパス学会第43回大会が開催されます。*1 私は、2日目の午前中に「機械学習を用いたコーパス分析入門」というワークショップを担当いたします。非会員の方でも参加可能ですので、ご興味があればご参加ください…

『仕事に使えるクチコミ分析ーテキストマイニングと統計学をマーケティングに活用する』という本を刊行します

来月、『仕事に使えるクチコミ分析ーテキストマイニングと統計学をマーケティングに活用する』という単著を刊行いたします 。仕事に使えるクチコミ分析[テキストマイニングと統計学をマーケティングに活用する]作者: 小林雄一郎出版社/メーカー: 技術評論社…

IFCS 2017の特別セッション

来たる2017年8月8〜10日に東海大学で行われる国際分類学会 (Conference of the International Federation of Classification) において、私が座長を務める"Text Classification"という特別セッションがあります。*1 このセッションでは、以下の5件の発表があ…

LCR2017から採択通知

来たる2017年10月5〜5日にイタリアのボルツァーノで開催されるLearner Corpus Research 2017に採択されました。*1 昨年度から採択された「縦断的コーパスの構築と日本人高校生の英語スピーキング力の発達過程の解明」という科研でやっている研究の一部です。…

中古における接続表現の統計的分析―指示詞を構成要素とするものを中心に

『国立国語研究所論集』(NINJAL Research Papers) というジャーナルに、以下の論文が掲載されました(オープンアクセスですので、こちらからダウンロードすることができます)。 小林雄一郎・岡﨑友子 (2017). 「中古における接続表現の統計的分析―指示詞を…

小学校で英語を教えるためのミニマム・エッセンシャルズ

来たる6月26日、『小学校で英語を教えるためのミニマム・エッセンシャルズ―小学校外国語科内容論』という共著書が出版されます。小学校で英語を教えるためのミニマム・エッセンシャルズ 小学校外国語科内容論作者: 酒井英樹,滝沢雄一,亘理陽一出版社/メーカ…

RとApache OpenNLPではじめる自然言語処理

本日、リクルートで開催される第61回R勉強会@東京 (Tokyo.R) において、「RとApache OpenNLPではじめる自然言語処理」というLTをします。発表スライドは、こちらから見ることができます。*1 小林雄一郎 (2017). 「RとApache OpenNLPではじめる自然言語処理…

Rによる感情分析

本日、サイバーエージェントで開催される第60回R勉強会@東京 (Tokyo.R) において、「Rによる感情分析」というLTをします。発表スライドは、こちらから見ることができます。*1 小林雄一郎 (2017). 「Rによる感情分析」 第60回R勉強会@東京. slide LTなので…

CL2017から採択通知

来たる2017年7月24〜28日にイギリスのバーミンガムで開催されるCorpus Linguistics 2017に投稿していたポスターが採択されました。*1 Yuichiro Kobayashi (2017). Developmental patterns of metadiscourse in second language writing. Corpus Linguistics …

『Rによるやさしいテキストマイニング』という本を刊行します

2月17日、『Rによるやさしいテキストマイニング』という単著を刊行いたします。目次などは出版社のウェブサイトで公開されていますが、ここでは、もう少し詳しくご紹介します。*1Rによるやさしいテキストマイニング作者: 小林雄一郎出版社/メーカー: オーム…

Rで英文に品詞情報を付与する

Rで英文に品詞情報を付与したいときは、openNLPパッケージを利用します。このパッケージの関数を使うと、Apache OpenNLP Maxent Part of Speech taggerによる品詞情報付与を行うことができます。以下の例では、Rの公式ウェブサイトから取った文に品詞タグを…

A corpus-based approach to the register awareness of Asian learners of English

少し前のことですが、Journal of Pan-Pacific Association of Applied Linguisticsに以下の論文が掲載されました(こちらからダウンロードすることができます)。 Yuichiro Kobayashi & Mariko Abe (2016). A corpus-based approach to the register awarene…

単語の基本形と品詞の情報を利用したワードリストを作る

R Advent Calendar 2016の12日目の記事です。以前、ワードリストを作るという記事を書きましたが、R単体では、英単語の基本形や品詞の情報を利用したワードリストを作ることができません。基本形や品詞の情報を使うには、品詞タガーによる前処理が必要となり…

Automated scoring of L2 spoken English with random forests

Journal of Pan-Pacific Association of Applied Linguisticsに以下の論文が掲載されました(こちらからダウンロードすることができます)。 Yuichiro Kobayashi & Mariko Abe (2016). Automated scoring of L2 spoken English with random forests. Journal…

LIF 2017から採択通知

来たる2017年3月2〜4日にキプロスで開催されるLanguage in Focus 2017にfull paperで採択されました。 Yuichiro Kobayashi & Akira Murakami (2017). Variation across L2 speech and writing: A multidimensional study. Language in Focus 2017. 今回の発…

日本語テキストにおける用例を表示する

言語研究においては、単語の頻度を数えるだけでなく、それらの単語がどのような文脈で用いられているかを精査することが重要です。そのような場合、コーパス言語学では、KWIC (KeyWord In Context) という形式で用例の一覧を表示することがあります。以前、K…

Gries' Deviation of Proportion (DP)

Rによる言語データ分析の教科書であるLevshina (2015) を読んでいたら、Stefan Th. Griesによって提案されたDeviation of Proportion (DP) (Gries, 2008; Lijffijt & Gries, 2012) という指標が出てきたので、以下にメモしておきます。この指標は、複数の(…