IFCS 2017の特別セッション

来たる2017年8月8〜10日に東海大学で行われる国際分類学会 (Conference of the International Federation of Classification) において、私が座長を務める"Text Classification"という特別セッションがあります。*1 このセッションでは、以下の5件の発表があ…

2017年7月に購入した本・ご恵贈頂いた本

以下の本を購入しました。もうひとつの重回帰分析作者: 豊田秀樹出版社/メーカー: 東京図書発売日: 2017/06/08メディア: 単行本この商品を含むブログを見る公式 TOEIC Listening & Reading トレーニング リスニング編作者: Educational Testing Service出版…

LCR2017から採択通知

来たる2017年10月5〜5日にイタリアのボルツァーノで開催されるLearner Corpus Research 2017に採択されました。*1 昨年度から採択された「縦断的コーパスの構築と日本人高校生の英語スピーキング力の発達過程の解明」という科研でやっている研究の一部です。…

Rによるword2vec

r

本日、ディップ株式会社で開催される第63回R勉強会@東京 (Tokyo.R) において、「Rによるword2vec」というLTをします。発表スライドは、こちらから見ることができます。*1 小林雄一郎 (2017). 「Rによるword2vec」 第63回R勉強会@東京. slide LTなので、非…

中古における接続表現の統計的分析―指示詞を構成要素とするものを中心に

『国立国語研究所論集』(NINJAL Research Papers) というジャーナルに、以下の論文が掲載されました(オープンアクセスですので、こちらからダウンロードすることができます)。 小林雄一郎・岡﨑友子 (2017). 「中古における接続表現の統計的分析―指示詞を…

2017年6月に購入した本・ご恵贈頂いた本

以下の本を購入しました。ETS TOEICの公式問題集LCリスニング 出題機関未公開2017最新実戦質問独占公開作者: ETS,Educational Testing Service出版社/メーカー: ETS発売日: 2017メディア: ペーパーバックこの商品を含むブログを見るETS TOEICの公式問題集RC…

Rによるやさしいテキストマイニング増刷(2017年6月)

r

おかげさまで、拙著『Rによるやさしいテキストマイニング』が増刷されました。1刷にあった誤記をいくつか修正いたしました。なお、本書の内容や趣旨については、以前書いたこちらの記事をご参照ください。Rによるやさしいテキストマイニング作者: 小林雄一郎…

小学校で英語を教えるためのミニマム・エッセンシャルズ

来たる6月26日、『小学校で英語を教えるためのミニマム・エッセンシャルズ―小学校外国語科内容論』という共著書が出版されます。小学校で英語を教えるためのミニマム・エッセンシャルズ 小学校外国語科内容論作者: 酒井英樹,滝沢雄一,亘理陽一出版社/メーカ…

2017年5月に購入した本・ご恵贈頂いた本

以下の本を購入しました。Mastering Text Mining with R作者: Ashish Kumar,Avinash Paul出版社/メーカー: Packt Publishing発売日: 2016/12/28メディア: ペーパーバックこの商品を含むブログを見るデータで学ぶ日本語学入門作者: 計量国語学会出版社/メーカ…

第1回 R初心者2日講習会 (R Two-Day Camp)

来たる2017年7月1~2日、幕張テクノガーデンで「R初心者2日間講習会」を開催します。本ワークショップは、2017年3月にも5日間連続の合宿形式で開催し、おかげさまで満席となりました。*1 今回は、週末に2日間、Rというデータ解析ツールのインストールや基本…

RとApache OpenNLPではじめる自然言語処理

本日、リクルートで開催される第61回R勉強会@東京 (Tokyo.R) において、「RとApache OpenNLPではじめる自然言語処理」というLTをします。発表スライドは、こちらから見ることができます。*1 小林雄一郎 (2017). 「RとApache OpenNLPではじめる自然言語処理…

特定の品詞の共起語だけをワードクラウドに描画する

r

拙著『Rによるやさしいテキストマイニング』の読者の方から、以下のような質問を頂きました。@langstat 先生の本を買って今独学中です。色々できて、達成感を感じています。ありがとうございます。一つお伺いしたいですが、共起語について、N-gram, collocat…

2017年4月に購入した本・ご恵贈頂いた本

以下の本を購入しました。テストは何を測るのか―項目反応理論の考え方作者: 光永悠彦出版社/メーカー: ナカニシヤ出版発売日: 2017/02/20メディア: 単行本この商品を含むブログを見るRによるスクレイピング入門作者: 石田基広,市川太祐,瓜生真也,湯谷啓明出…

2017年度に採択された科研費

本年度は、以下の3つの科研費が採択されました。 若手研究(B)「英文自動評価システムを用いたフィードバックの明示性に関する研究」(代表: 小林雄一郎) (2017-2020年度) 基盤研究(B) 「多言語パラレルコーパスに基づくDDLオープンプラットフォームの高度…

Rによる感情分析

本日、サイバーエージェントで開催される第60回R勉強会@東京 (Tokyo.R) において、「Rによる感情分析」というLTをします。発表スライドは、こちらから見ることができます。*1 小林雄一郎 (2017). 「Rによる感情分析」 第60回R勉強会@東京. slide LTなので…

所属変更のご報告(2017年4月1日)

本日、日本大学生産工学部の教養・基礎科学系(言語文化系列)に助教として着任いたしました。任期は3年です。主に、英語、初年次教育、2年次教育などの科目を担当します。 前所属の東洋大学社会学部メディアコミュニケーション学科には、2年間という短い間…

2017年3月に購入した本・ご恵贈頂いた本

以下の本を購入しました。R for Data Science: Import, Tidy, Transform, Visualize, and Model Data作者: Hadley Wickham,Garrett Grolemund出版社/メーカー: Oreilly & Associates Inc発売日: 2017/01/05メディア: ペーパーバックこの商品を含むブログを見…

2016年度の総括

今年度は、おかげさまで単著を出せましたし、英語論文もいくつか書けましたので、まずまずの出来ではないかと思っています。これに満足せず、来年度を今年度以上に生産的な年に出来るように頑張りたいと思います。 著書 小林雄一郎 (2016). 『Rによるやさし…

R初心者合宿講習会 (R Bootcamp) に関する資料

r

ここには、R初心者合宿講習会 (R Bootcamp) のためのメモや練習問題が書かれています(工事中・随時更新)。なお、現在は、私が講師を務める部分に関するもののみを公開しています。 テキスト 小林雄一郎 (2017). 『Rによるやさしいテキストマイニング』 オ…

2017年2月に購入した本・ご恵贈頂いた本

以下の本を購入しました。A User’s Guide to Network Analysis in R (Use R!)作者: Douglas A. Luke出版社/メーカー: Springer発売日: 2015/12/21メディア: ペーパーバックこの商品を含むブログを見るStatistical Analysis of Network Data with R (Use R!)…

CL2017から採択通知

来たる2017年7月24〜28日にイギリスのバーミンガムで開催されるCorpus Linguistics 2017に投稿していたポスターが採択されました。*1 Yuichiro Kobayashi (2017). Developmental patterns of metadiscourse in second language writing. Corpus Linguistics …

ランダムフォレストのMDS plotで誤分類されている標本だけ書式を変える

Rでランダムフォレストの結果に基づく多次元尺度法の散布図(MDS plot)を作成し、他クラスに誤分類されている標本だけ書式を変えたい、という要望があったので、今回はそれに挑戦してみます。以下は、「とりあえずできた」という程度のコードなので、もっと…

Rの初心者が中級者にステップアップするための7冊

r

今回は、Rの初心者から中級者にステップアップするための参考書をご紹介します。*1 なお、本記事における「初心者」は、以下の4つの条件を満たすことを想定しています。*2 Rのインストールと起動ができる RにテキストファイルやCSVファイルを読み込むことが…

『Rによるやさしいテキストマイニング』という本を刊行します

2月17日、『Rによるやさしいテキストマイニング』という単著を刊行いたします。目次などは出版社のウェブサイトで公開されていますが、ここでは、もう少し詳しくご紹介します。*1Rによるやさしいテキストマイニング作者: 小林雄一郎出版社/メーカー: 株式会…

Rで英文に品詞情報を付与する

Rで英文に品詞情報を付与したいときは、openNLPパッケージを利用します。このパッケージの関数を使うと、Apache OpenNLP Maxent Part of Speech taggerによる品詞情報付与を行うことができます。以下の例では、Rの公式ウェブサイトから取った文に品詞タグを…

文章を自動要約する

r nlp

Rで文章の自動要約をするには、LSAfunパッケージのgenericSummary関数を使います。この関数を使うと、文章全体を最も的確に表すk個の文を抽出することができます。以下は、Rogue OneのWikipedia記事(英語版)の一部を使った例です。 # パッケージの読み込み…

2017年1月に購入した本・ご恵贈頂いた本

以下の本を購入しました。Fundamental Considerations in Language Testing (Oxford Applied Linguistics)作者: Lyle F. Bachman出版社/メーカー: Oxford Univ Pr (Sd)発売日: 1990/04/19メディア: ペーパーバックこの商品を含むブログを見るLanguage Testin…

2016年度 言語処理論B (Day 3)

以下は、東京外国語大学の集中講義「言語処理論B」に関するメモです。 Class 11~15: 個人研究 データ収集 この授業では、「Rを用いた日本語もしくは英語の分析」というテーマのレポートを書いてもらう予定です。細かいテーマ設定などは自由で、可能な限り、…

2016年度 言語処理論B (Day 2)

以下は、東京外国語大学の集中講義「言語処理論B」に関するメモです。 Class 6: 多変量解析(の続き) 判別分析とは、任意のデータ(目的変数)の属性をそれ以外のデータ(説明変数)を手がかりとして予測する手法です。以下では、Rにあらかじめ格納されてい…

2016年度 言語処理論B (Day 1)

以下は、東京外国語大学の集中講義「言語処理論B」に関するメモです。 Class 1: イントロダクション この授業の目的は、文系学生が卒業研究などで用いるデータ処理技術を習得することです。具体的には、(1) Rによるプログラミングの基礎、(2) さまざまなグラ…

A corpus-based approach to the register awareness of Asian learners of English

少し前のことですが、Journal of Pan-Pacific Association of Applied Linguisticsに以下の論文が掲載されました(こちらからダウンロードすることができます)。 Yuichiro Kobayashi & Mariko Abe (2016). A corpus-based approach to the register awarene…

第1回 R初心者合宿講習会 (R Bootcamp) 募集中

先日、こちらの記事で第1回R初心者合宿講習会についてお知らせいたしました。その後、おかげさまで多くの方から参加登録をして頂きまして、残席はわずか数名となっております。ですので、参加を検討されている方には、こちらからお早目の申し込みをされるこ…

2016年12月に購入した本・ご恵贈頂いた本

以下の本を購入しました。Quantitative Corpus Linguistics with R: A Practical Introduction作者: Stefan Th. Gries出版社/メーカー: Routledge発売日: 2016/11/01メディア: ペーパーバックこの商品を含むブログを見るStatistics for Linguistics with R: …

単語の基本形と品詞の情報を利用したワードリストを作る

R Advent Calendar 2016の12日目の記事です。以前、ワードリストを作るという記事を書きましたが、R単体では、英単語の基本形や品詞の情報を利用したワードリストを作ることができません。基本形や品詞の情報を使うには、品詞タガーによる前処理が必要となり…

Automated scoring of L2 spoken English with random forests

Journal of Pan-Pacific Association of Applied Linguisticsに以下の論文が掲載されました(こちらからダウンロードすることができます)。 Yuichiro Kobayashi & Mariko Abe (2016). Automated scoring of L2 spoken English with random forests. Journal…

第1回 R初心者合宿講習会 (R Bootcamp)

来たる3月7〜11日、幕張テクノガーデンで第1回R初心者合宿講習会を開催します。このイベントは、5日間にわたるRの集中講座で、インストールや基本操作から、統計処理やテキストマイニングまでをカバーします(参加登録は、こちらからお願いします。)。暫定…

データのばらつきを視覚化する (2)

r

以前、データのばらつきを視覚化する (1) という記事で、箱ひげ図の上に個々のデータの分布を重ねて描く方法を紹介しました。今回は、rug関数を使って個々のデータの分布を可視化する方法を紹介します。以下、irisデータにおけるsepal length(がくの長さ)…

2016年11月に購入した本・ご恵贈頂いた本

以下の本を購入しました。ggplot2: Elegant Graphics for Data Analysis (Use R!)作者: Hadley Wickham出版社/メーカー: Springer発売日: 2016/06/16メディア: ペーパーバックこの商品を含むブログを見るRパッケージ開発入門 ―テスト、文書化、コード共有の…

LIF 2017から採択通知

来たる2017年3月2〜4日にキプロスで開催されるLanguage in Focus 2017にfull paperで採択されました。 Yuichiro Kobayashi & Akira Murakami (2017). Variation across L2 speech and writing: A multidimensional study. Language in Focus 2017. 今回の発…

日本語テキストにおける用例を表示する

言語研究においては、単語の頻度を数えるだけでなく、それらの単語がどのような文脈で用いられているかを精査することが重要です。そのような場合、コーパス言語学では、KWIC (KeyWord In Context) という形式で用例の一覧を表示することがあります。以前、K…

Gries' Deviation of Proportion (DP)

Rによる言語データ分析の教科書であるLevshina (2015) を読んでいたら、Stefan Th. Griesによって提案されたDeviation of Proportion (DP) (Gries, 2008; Lijffijt & Gries, 2012) という指標が出てきたので、以下にメモしておきます。この指標は、複数の(…

おすすめのTOEFL iBT「非公式」対策本10冊

1年ほど前から、TOEFLの本を網羅的にチェックしています。そこで、個人的に良かったと思う「非公式」対策本(韓国本・中国本)を以下にまとめてみます(随時更新)。*1 この記事で想定している学習者は、ETSが出版している公式問題集をある程度やり込んでい…

2016年10月に購入した本

以下、順不同です。How to Do Linguistics With R: Data Exploration and Statistical Analysis作者: Natalia Levshina出版社/メーカー: John Benjamins Pub Co発売日: 2015/11/25メディア: ペーパーバックこの商品を含むブログを見る定性的データ分析 (シリ…

SegmentAntとAntConcによる日本語テキストの解析

日本語のテキストを解析する場合、一般的に、(1) 文章を単語単位に分かち書きし、(2) 単語の頻度や用例を分析する、という2段階の手順が取られます。 文章の分かち書き 日本語の文章は、単語と単語の間に区切りがなく、コンピュータで単語を分析する場合に不…

Rlingパッケージのインストール

Rによる言語データ分析の教科書であるLevshina (2015) では、Rlingという独自のパッケージが用いられています。Rlingパッケージは、この本のサポートサイトのR Packageというページからダウンロードすることができます。サポートサイトには複数のインストー…

言語処理学会第23回年次大会

言語処理学会第23回年次大会(3月13~17日、筑波大学)の情報がこちらで発表されました。今大会の主なスケジュールは、以下の通りです。多くの方々の投稿をお待ちしております。 チュートリアル応募締切: 2016年10月14日(金) テーマセッション / ワークシ…

2016年9月に購入した本・ご恵贈頂いた本

以下の本を購入しました。Diagnosing Foreign Language Proficiency: The Interface between Learning and Assessment作者: J. Charles Alderson出版社/メーカー: Continuum発売日: 2005/11/30メディア: ハードカバーこの商品を含むブログを見るRで楽しむ統…

2016年8月に購入した本

以下、順不同です。Uncharted: Big Data as a Lens on Human Culture作者: Erez Aiden,Jean-Baptiste Michel出版社/メーカー: Riverhead Books発売日: 2014/12/02メディア: ペーパーバックこの商品を含むブログを見るThe Diagnosis of Reading in a Second o…

(言語学者による) 容認度評定の認証システムを試作する構想

来たる9月16~18日に北海道大学で開催される日本認知科学会第33回大会にて、以下の共同発表を行います。 黒田航・阿部慶賀・横野光・田川拓海・小林雄一郎・金丸敏幸・土屋智行・浅尾仁彦 (2016). 「(言語学者による) 容認度評定の認証システムを試作する構…

2016年7月に購入した本・ご恵贈頂いた本

以下の本を購入しました。The Routledge Handbook of Language Testing (Routledge Handbooks in Applied Linguistics)作者: Glenn Fulcher,Fred Davidson出版社/メーカー: Routledge発売日: 2016/06/21メディア: ペーパーバックこの商品を含むブログを見るL…