corpus

『Rによるやさしいテキストマイニング[機械学習編]』という本を刊行します

9月21日、『Rによるやさしいテキストマイニング[機械学習編]』という書籍を刊行いたします。目次などは出版社のウェブサイトで公開されていますが、ここでは、もう少し詳しくご紹介します。*1 Rによるやさしいテキストマイニング: 機械学習編作者: 小林雄…

Investigating the chronological variation of popular song lyrics through lexical indices

Journal of the Japanese Association for Digital Humanitiesに以下の論文が掲載されました(こちらからダウンロードすることができます)。 Yuichiro Kobayashi, Misaki Amagasa, & Takafumi Suzuki (2017). Investigating the chronological variation of…

機械学習を用いたコーパス分析入門

来たる9月30日~10月1日、関西学院大学で英語コーパス学会第43回大会が開催されます。*1 私は、2日目の午前中に「機械学習を用いたコーパス分析入門」というワークショップを担当いたします。非会員の方でも参加可能ですので、ご興味があればご参加ください…

『仕事に使えるクチコミ分析ーテキストマイニングと統計学をマーケティングに活用する』という本を刊行します

来月、『仕事に使えるクチコミ分析ーテキストマイニングと統計学をマーケティングに活用する』という単著を刊行いたします 。仕事に使えるクチコミ分析[テキストマイニングと統計学をマーケティングに活用する]作者: 小林雄一郎出版社/メーカー: 技術評論社…

IFCS 2017の特別セッション

来たる2017年8月8〜10日に東海大学で行われる国際分類学会 (Conference of the International Federation of Classification) において、私が座長を務める"Text Classification"という特別セッションがあります。*1 このセッションでは、以下の5件の発表があ…

LCR2017から採択通知

来たる2017年10月5〜5日にイタリアのボルツァーノで開催されるLearner Corpus Research 2017に採択されました。*1 昨年度から採択された「縦断的コーパスの構築と日本人高校生の英語スピーキング力の発達過程の解明」という科研でやっている研究の一部です。…

中古における接続表現の統計的分析―指示詞を構成要素とするものを中心に

『国立国語研究所論集』(NINJAL Research Papers) というジャーナルに、以下の論文が掲載されました(オープンアクセスですので、こちらからダウンロードすることができます)。 小林雄一郎・岡﨑友子 (2017). 「中古における接続表現の統計的分析―指示詞を…

小学校で英語を教えるためのミニマム・エッセンシャルズ

来たる6月26日、『小学校で英語を教えるためのミニマム・エッセンシャルズ―小学校外国語科内容論』という共著書が出版されます。小学校で英語を教えるためのミニマム・エッセンシャルズ 小学校外国語科内容論作者: 酒井英樹,滝沢雄一,亘理陽一出版社/メーカ…

RとApache OpenNLPではじめる自然言語処理

本日、リクルートで開催される第61回R勉強会@東京 (Tokyo.R) において、「RとApache OpenNLPではじめる自然言語処理」というLTをします。発表スライドは、こちらから見ることができます。*1 小林雄一郎 (2017). 「RとApache OpenNLPではじめる自然言語処理…

Rによる感情分析

本日、サイバーエージェントで開催される第60回R勉強会@東京 (Tokyo.R) において、「Rによる感情分析」というLTをします。発表スライドは、こちらから見ることができます。*1 小林雄一郎 (2017). 「Rによる感情分析」 第60回R勉強会@東京. slide LTなので…

CL2017から採択通知

来たる2017年7月24〜28日にイギリスのバーミンガムで開催されるCorpus Linguistics 2017に投稿していたポスターが採択されました。*1 Yuichiro Kobayashi (2017). Developmental patterns of metadiscourse in second language writing. Corpus Linguistics …

『Rによるやさしいテキストマイニング』という本を刊行します

2月17日、『Rによるやさしいテキストマイニング』という単著を刊行いたします。目次などは出版社のウェブサイトで公開されていますが、ここでは、もう少し詳しくご紹介します。*1Rによるやさしいテキストマイニング作者: 小林雄一郎出版社/メーカー: オーム…

Rで英文に品詞情報を付与する

Rで英文に品詞情報を付与したいときは、openNLPパッケージを利用します。このパッケージの関数を使うと、Apache OpenNLP Maxent Part of Speech taggerによる品詞情報付与を行うことができます。以下の例では、Rの公式ウェブサイトから取った文に品詞タグを…

A corpus-based approach to the register awareness of Asian learners of English

少し前のことですが、Journal of Pan-Pacific Association of Applied Linguisticsに以下の論文が掲載されました(こちらからダウンロードすることができます)。 Yuichiro Kobayashi & Mariko Abe (2016). A corpus-based approach to the register awarene…

単語の基本形と品詞の情報を利用したワードリストを作る

R Advent Calendar 2016の12日目の記事です。以前、ワードリストを作るという記事を書きましたが、R単体では、英単語の基本形や品詞の情報を利用したワードリストを作ることができません。基本形や品詞の情報を使うには、品詞タガーによる前処理が必要となり…

Automated scoring of L2 spoken English with random forests

Journal of Pan-Pacific Association of Applied Linguisticsに以下の論文が掲載されました(こちらからダウンロードすることができます)。 Yuichiro Kobayashi & Mariko Abe (2016). Automated scoring of L2 spoken English with random forests. Journal…

LIF 2017から採択通知

来たる2017年3月2〜4日にキプロスで開催されるLanguage in Focus 2017にfull paperで採択されました。 Yuichiro Kobayashi & Akira Murakami (2017). Variation across L2 speech and writing: A multidimensional study. Language in Focus 2017. 今回の発…

日本語テキストにおける用例を表示する

言語研究においては、単語の頻度を数えるだけでなく、それらの単語がどのような文脈で用いられているかを精査することが重要です。そのような場合、コーパス言語学では、KWIC (KeyWord In Context) という形式で用例の一覧を表示することがあります。以前、K…

Gries' Deviation of Proportion (DP)

Rによる言語データ分析の教科書であるLevshina (2015) を読んでいたら、Stefan Th. Griesによって提案されたDeviation of Proportion (DP) (Gries, 2008; Lijffijt & Gries, 2012) という指標が出てきたので、以下にメモしておきます。この指標は、複数の(…

SegmentAntとAntConcによる日本語テキストの解析

日本語のテキストを解析する場合、一般的に、(1) 文章を単語単位に分かち書きし、(2) 単語の頻度や用例を分析する、という2段階の手順が取られます。 文章の分かち書き 日本語の文章は、単語と単語の間に区切りがなく、コンピュータで単語を分析する場合に不…

言語処理学会第23回年次大会

言語処理学会第23回年次大会(3月13~17日、筑波大学)の情報がこちらで発表されました。今大会の主なスケジュールは、以下の通りです。多くの方々の投稿をお待ちしております。 チュートリアル応募締切: 2016年10月14日(金) テーマセッション / ワークシ…

APCLC 2016から採択通知

来たる2016年10月21〜23日に中国の北京で開催されるAsia Pacific Corpus Linguistics Conference (APCLC) 2016にfull paperで採択されました。 Yuichiro Kobayashi & Akira Murakami (2016). Contrastive analysis of L2 speech and writing: A multi-dimens…

Heat map with hierarchical clustering: Multivariate visualization method for corpus-based language studies

『国立国語研究所論集』(NINJAL Research Papers) というジャーナルに、以下の論文が掲載されました(オープンアクセスですので、こちらからダウンロードすることができます)。手法の解説だけでなく、Rのスクリプトを載せています。 Yuichiro Kobayashi (20…

Investigating metadiscourse markers in Asian Englishes: A corpus-based approach

Language in Focusというジャーナルに、以下の論文が掲載されました(オープンアクセスですので、こちらからダウンロードすることができます)。 Yuichiro Kobayashi (2016). Investigating metadiscourse markers in Asian Englishes: A corpus-based appro…

Exploring the effectiveness of combined web-based corpus tools for beginner EFL DDL

Linguistics and Literature Studiesというジャーナルに、下記の共著論文が出版されました。筆頭著者は、日本大学の中條清美先生です。なお、本論文は、こちらで一般公開されています。 Kiyomi Chujo, Yuichiro Kobayashi, Atsushi Mizumoto, & Kathryn Oghi…

JEFLL Corpusの使い方

この記事は、日本人中学生・高校生約1万人の自由英作文データを集めたJEFLL Corpusの使い方に関する授業資料です(随時更新)。JEFLLの詳細や利用規定に関しては、リンク先を参照してください。また、検索方法に関しては、各自「ヘルプ」を読んでください。 …

書評『英語コーパスを活用した言語研究』

今月発売の『英語教育』に、ハーンス・リンドクヴィスト『英語コーパスを活用した言語研究』の書評を書かせて頂きました。拝読した感想は紙面に書いたとおりなのですが、書かなかったこととしては、Project Gutenbergで「利用可能なテクストの質は100%保証さ…

外国語教育研究におけるスピーキングとライティングの自動採点・評価

来たる3月19日(土)、早稲田大学CCDL研究所第1回シンポジウム「外国語教育研究におけるスピーキングとライティングの自動採点・評価」が開催されます。主なプログラムは、以下の通りです。皆さまのご来場を心よりお待ち申し上げております(参加申し込みは…

人文情報学の方法論に基づく歌詞の体系的分析

『人文情報学月報』の第53号に「巻頭言」を書かせて頂きました。基本的には、じんもんこん2015で報告した研究内容に基づいています。 小林雄一郎 (2015). 「人文情報学の方法論に基づく歌詞の体系的分析」 『人文情報学月報』53. Online.

Rによる英文テキスト処理

Rで英語のテキストを分析する方法について、学部の紀要に文章を書きました。主に、(1) Rとパッケージのインストール、(2) データの読み込み、(3) KWICコンコーダンス、(4) コンコーダンスプロット、(5) コロケーションテーブル、(6) ワードリスト、(7) ワー…