読者です 読者をやめる 読者になる 読者になる

CL2017から採択通知

来たる2017年7月24〜28日にイギリスのバーミンガムで開催されるCorpus Linguistics 2017に投稿していたポスターが採択されました。*1 Yuichiro Kobayashi (2017). Developmental patterns of metadiscourse in second language writing. Corpus Linguistics …

『Rによるやさしいテキストマイニング』という本を刊行します

2月17日、『Rによるやさしいテキストマイニング』という単著を刊行いたします。目次などは出版社のウェブサイトで公開されていますが、ここでは、もう少し詳しくご紹介します。*1Rによるやさしいテキストマイニング作者: 小林雄一郎出版社/メーカー: 株式会…

Rで英文に品詞情報を付与する

Rで英文に品詞情報を付与したいときは、openNLPパッケージを利用します。このパッケージの関数を使うと、Apache OpenNLP Maxent Part of Speech taggerによる品詞情報付与を行うことができます。以下の例では、Rの公式ウェブサイトから取った文に品詞タグを…

A corpus-based approach to studying the register awareness of Asian learners of English

少し前のことですが、Journal of Pan-Pacific Association of Applied Linguisticsに以下の論文が掲載されました(こちらからダウンロードすることができます)。 Yuichiro Kobayashi & Mariko Abe (2016). A corpus-based approach to studying the registe…

単語の基本形と品詞の情報を利用したワードリストを作る

R Advent Calendar 2016の12日目の記事です。以前、ワードリストを作るという記事を書きましたが、R単体では、英単語の基本形や品詞の情報を利用したワードリストを作ることができません。基本形や品詞の情報を使うには、品詞タガーによる前処理が必要となり…

Automated scoring of L2 spoken English with random forests

Journal of Pan-Pacific Association of Applied Linguisticsに以下の論文が掲載されました(こちらからダウンロードすることができます)。 Yuichiro Kobayashi & Mariko Abe (2016). Automated scoring of L2 spoken English with random forests. Journal…

LIF 2017から採択通知

来たる2017年3月2〜4日にキプロスで開催されるLanguage in Focus 2017にfull paperで採択されました。 Yuichiro Kobayashi & Akira Murakami (2017). Variation across L2 speech and writing: A multidimensional study. Language in Focus 2017. 今回の発…

日本語テキストにおける用例を表示する

言語研究においては、単語の頻度を数えるだけでなく、それらの単語がどのような文脈で用いられているかを精査することが重要です。そのような場合、コーパス言語学では、KWIC (KeyWord In Context) という形式で用例の一覧を表示することがあります。以前、K…

Gries' Deviation of Proportion (DP)

Rによる言語データ分析の教科書であるLevshina (2015) を読んでいたら、Stefan Th. Griesによって提案されたDeviation of Proportion (DP) (Gries, 2008; Lijffijt & Gries, 2012) という指標が出てきたので、以下にメモしておきます。この指標は、複数の(…

SegmentAntとAntConcによる日本語テキストの解析

日本語のテキストを解析する場合、一般的に、(1) 文章を単語単位に分かち書きし、(2) 単語の頻度や用例を分析する、という2段階の手順が取られます。 文章の分かち書き 日本語の文章は、単語と単語の間に区切りがなく、コンピュータで単語を分析する場合に不…

言語処理学会第23回年次大会

言語処理学会第23回年次大会(3月13~17日、筑波大学)の情報がこちらで発表されました。今大会の主なスケジュールは、以下の通りです。多くの方々の投稿をお待ちしております。 チュートリアル応募締切: 2016年10月14日(金) テーマセッション / ワークシ…

APCLC 2016から採択通知

来たる2016年10月21〜23日に中国の北京で開催されるAsia Pacific Corpus Linguistics Conference (APCLC) 2016にfull paperで採択されました。 Yuichiro Kobayashi & Akira Murakami (2016). Contrastive analysis of L2 speech and writing: A multi-dimens…

Heat map with hierarchical clustering: Multivariate visualization method for corpus-based language studies

『国立国語研究所論集』(NINJAL Research Papers) というジャーナルに、以下の論文が掲載されました(オープンアクセスですので、こちらからダウンロードすることができます)。手法の解説だけでなく、Rのスクリプトを載せています。 Yuichiro Kobayashi (20…

Investigating metadiscourse markers in Asian Englishes: A corpus-based approach

Language in Focusというジャーナルに、以下の論文が掲載されました(オープンアクセスですので、こちらからダウンロードすることができます)。 Yuichiro Kobayashi (2016). Investigating metadiscourse markers in Asian Englishes: A corpus-based appro…

Exploring the effectiveness of combined web-based corpus tools for beginner EFL DDL

Linguistics and Literature Studiesというジャーナルに、下記の共著論文が出版されました。筆頭著者は、日本大学の中條清美先生です。なお、本論文は、こちらで一般公開されています。 Kiyomi Chujo, Yuichiro Kobayashi, Atsushi Mizumoto, & Kathryn Oghi…

JEFLL Corpusの使い方

この記事は、日本人中学生・高校生約1万人の自由英作文データを集めたJEFLL Corpusの使い方に関する授業資料です(随時更新)。JEFLLの詳細や利用規定に関しては、リンク先を参照してください。また、検索方法に関しては、各自「ヘルプ」を読んでください。 …

書評『英語コーパスを活用した言語研究』

今月発売の『英語教育』に、ハーンス・リンドクヴィスト『英語コーパスを活用した言語研究』の書評を書かせて頂きました。拝読した感想は紙面に書いたとおりなのですが、書かなかったこととしては、Project Gutenbergで「利用可能なテクストの質は100%保証さ…

外国語教育研究におけるスピーキングとライティングの自動採点・評価

来たる3月19日(土)、早稲田大学CCDL研究所第1回シンポジウム「外国語教育研究におけるスピーキングとライティングの自動採点・評価」が開催されます。主なプログラムは、以下の通りです。皆さまのご来場を心よりお待ち申し上げております(参加申し込みは…

人文情報学の方法論に基づく歌詞の体系的分析

『人文情報学月報』の第53号に「巻頭言」を書かせて頂きました。基本的には、じんもんこん2015で報告した研究内容に基づいています。 小林雄一郎 (2015). 「人文情報学の方法論に基づく歌詞の体系的分析」 『人文情報学月報』53. Online.

Rによる英文テキスト処理

Rで英語のテキストを分析する方法について、学部の紀要に文章を書きました。主に、(1) Rとパッケージのインストール、(2) データの読み込み、(3) KWICコンコーダンス、(4) コンコーダンスプロット、(5) コロケーションテーブル、(6) ワードリスト、(7) ワー…

The 19th Joint Workshop on Linguistics and Language Processing

来たる12月11~12日、早稲田大学でThe 19th Joint Workshop on Linguistics and Language Processingが開催されます。そこで私も、口頭発表をさせて頂くことになりました。 Yuichiro Kobayashi (2015). A contrastive rhetoric analysis of metadiscourse ma…

「通時コーパス」国際シンポジウム

来たる10月4日(日)、国立国語研究所で「通時コーパス」国際シンポジウムが開催されます。私も、同じ大学の岡崎友子先生と一緒に講演枠で発表をさせて頂くことになりました。*1 岡崎友子・小林雄一郎 (2015). 「中古作品における接続表現の統計的分析―指示…

Second International Symposium on EFL Writing in East Asia

来たる10月31日(土)、東京大学でSecond International Symposium on EFL Writing in East Asiaが開催されます。これは、「第二言語ライティング研究の現代的課題と解決のための将来構想―東アジアからの発信―」という科研プロジェクト(基盤研究B、代表者: …

Effects of a writing prompt on L2 learners' essays

現在ランカスターで開催されているCorpus Linguistics 2015のアブストラクトが公開されました。我々は、以下のような発表を行いました。*1 Masumi Narita, Mariko Abe, & Yuichiro Kobayashi (2015). Effects of a writing prompt on L2 learners' essays. C…

語彙多様性とリーダビリティを用いたテキスト分析

外国語教育メディア学会中部支部の『外国語教育基礎研究部会2014年度報告論集』に以下の原稿を載せて頂きました。センター試験の英語長文問題を例に、Rによる分析を行いました。本稿のPDFは、こちらで公開されています。*1 小林雄一郎 (2015). 「語彙多様性…

stringrを使った文字列処理 (3)

今回も、stringrパッケージを使った文字列処理を紹介します。まず、str_subset関数を使うと、指定したパターンにマッチする文字列を含む要素が得られます。 # パッケージの読み込み library(stringr) # パターンにマッチする文字列を含む要素を抽出 verbs <-…

stringrを使った文字列処理 (2)

今回も、stringrパッケージを使った文字列処理を紹介します。まず、大文字と小文字の置換を行うには、str_to_upper関数、str_to_lower関数、str_to_title関数が便利です。 # パッケージの読み込み library(stringr) # 大文字と小文字の置換 x <- "R is a fre…

stringrを使った文字列処理 (1)

今回は、stringrパッケージを使った文字列処理を紹介します。まず、str_length関数を使うと、文字列の長さを計算することができます。 # パッケージの読み込み library(stringr) # 文字列の長さ str_length("have") 上記のスクリプトを実行すると、以下のよ…

Rでリーダビリティを計算する

本日、ニフティで開催される第48回R勉強会@東京 (Tokyo.R) において、「Rでリーダビリティを計算する」というLTをします。発表スライドは、以下のリンクから見ることができます。 小林雄一郎 (2015). 「Rでリーダビリティを計算する」第48回R勉強会@東京. …

Symposium on Second Language Writing 2015から採択通知

来たる2015年11月19〜21日にニュージーランドのオークランド工科大学で開催されるSymposium on Second Language Writing 2015に採択されました。 Yuichiro Kobayashi (2015). Investigating metadiscourse markers in Asian Englishes: A corpus-based appro…

書き手を識別するためのクラスタリング手法の検討

来たる4月18日(土)、国立国語研究所にて、「通時コーパスの設計」近代語グループ 研究会(非公開)が開催されます。主な内容は、以下のとおりです。 小島聡子「宮沢賢治と浜田広介の文体比較―話し言葉的側面の出方について」 小林雄一郎「書き手を識別する…

コーパス言語学研究における頻度差の検定と効果量

『外国語教育メディア学会 (LET) 関西支部メソドロジー研究部会報告論集』の第6号がこちらで全文公開されました。今回は、私も以下の論文を寄稿させて頂きました。 小林雄一郎 (2015). 「コーパス言語学研究における頻度差の検定と効果量」 『外国語教育メデ…

Corpus Linguistics 2015から採択通知

来たる2015年7月21〜24日にイギリスのランカスター大学で開催されるCorpus Linguistics 2015に採択されました。 Masumi Narita, Mariko Abe, & Yuichiro Kobayashi (2015). Effects of a writing prompt on L2 learners' essays. Corpus Linguistics 2015. …

潜在的意味解析による分類

今回は、複数のテキストから作成した文書ターム行列に潜在的意味解析を行う方法を紹介します。*1 分析データは、石田 (2008) のサンプルデータにおける森鴎外と夏目漱石のテキスト(合計8編)とします。また、潜在的意味解析には、各テキストにおける名詞、…

頻度差の検定の効果量としてファイ係数とクラメールのVを用いる

この記事は、頻度差の検定の効果量としてオッズ比を用いるという記事の続編です。今回は、効果量としてのファイ係数とクラメールのVについて書きたいと思います。 最初の分析データとしては、前回と同じ言語項目の正用と誤用の頻度を集計した分割表を使いま…

頻度差の検定の効果量としてオッズ比を用いる

コーパス分析で頻度差を検定する場合、カイ二乗検定や対数尤度比検定がよく使われます。しかし、このような検定には、サンプル・サイズが大きくなれば、実質的な差がなくとも、「有意差あり」という誤った結果が得られる危険性があります。そのようなときに…

習熟度尺度におけるレベル分割点の決定―統計的シミュレーションを用いて

12月20日(土)、沖縄県青年会館で開催された外国語教育メディア学会関西支部メソドロジー研究部会で、「習熟度尺度におけるレベル分割点の決定―統計的シミュレーションを用いて」という発表をしてきました。そのスライドを以下で公開しています。*1 小林雄…

共起語の対数尤度比とダイス係数を求める

QiitaのR Advent Calendar 2014の20日目の記事です。*1 共起語とは、分析対象とする単語(中心語、あるいは検索語)の近くによく一緒に現れる単語のことです。実際の分析を行うにあたっては、どれくらい「近く」に現れる単語を共起語とみなすのか、また、ど…

Rパッケージにおける言語関連のデータ #RAdventJP

R Advent Calendar 2014の8日目の記事です。自分メモをかねて、Rパッケージにおける言語関連のデータをまとめてみました(随時更新中)。*1 因みに、zipfRパッケージのデータを読み込む場合は、パッケージのマニュアルを参照してください。*2 dataset descri…

テキストマイニングによる言語研究

このたび、『テキストマイニングによる言語研究』という共著書をひつじ書房より刊行することになりました(2014年12月12日刊行予定)。テキストマイニングによる言語研究 (ひつじ研究叢書(言語編) 第121巻)作者: 岸江信介,田畑智司出版社/メーカー: ひつじ書…

Computer-aided error analysis of L2 spoken English: A data mining approach

11月14日(金)、カラチのDHA Suffa Universityで開催された5th Conference on language and Technology (CLT) において、"Computer-aided error analysis of L2 spoken English: A data mining approach"という発表をしてきました。*1 内容的には、8月のPAAL…

単語を重み付けする

今回は、TF-IDF (term frequency–inverse document frequency) という方法で単語の重み付けを行う方法を紹介します。TFは単語の観測頻度、IDFは全文書数をその単語が出現した文書で割って対数をとった値となります。*1 分析データは、金明哲先生が公開してお…

An analysis of three collocations dictionaries for learners of English

Lexiconという辞書学のジャーナルに、"An analysis of three collocations dictionaries for learners of English"という共著論文が掲載されました。この論文では、Oxford Collocations Dictionary, Second Edition (OCD2)、Macmillan Collocations Dictiona…

文字列の類似度を測る

今回は、文字列距離 (string distance)*1 を求める方法を紹介します。以下の例では、stringdistパッケージを用います。*2 このパッケージのstringdist関数を使うと、様々な文字列距離を求めることができます。 # パッケージの読み込み library(stringdist) #…

The similarity and difference between human scoring and automated scoring

9月27日(金)、ソウルの祥明大学校で開催されたApplied Linguistics Association of Korea (ALAK) の国際大会において、"The similarity and difference between human scoring and automated scoring"という発表をしてきました。 内容的には、3月末に「機…

共起ネットワークを作る

今回は、単語の頻度を用いた共起ネットワークを描きます。分析データは、RMeCabを使う (1) という記事で使ったAbe.txtとします。以下の例では、テクストに現れる名詞のみを対象とし、共起頻度が2以上のパターンのみを描画しています。*1 # パッケージの読み…

名詞率とMVRに基づくテクスト分類

今回は、樺島・寿岳 (1965) によって提案された、名詞率とMVRによるテクスト分類法を紹介します。*1 分析データは、RMeCabを使う (1) という記事で使用した「PM」データセットとします。 # パッケージの読み込み library(RMeCab) # 品詞頻度行列の作成 setwd…

RMeCabを使う (4)

前回に引き続き、RMeCabパッケージの使い方を紹介します。前回は単語の頻度を用いた文書分類を行いましたが、今回はn-gramの頻度を用いた文書分類を行います。 複数ファイルにおけるn-gramの頻度を集計するには、docNgram関数を使います。文書分類には、前回…

RMeCabを使う (3)

前回に引き続き、RMeCabパッケージの使い方を紹介します。これまでは単一のファイルのみを解析してきましたが、今回は複数ファイルの解析を扱います。 まずは、カイ2乗値を用いて、テクスト間の頻度差が大きい語を特定してみましょう。 # パッケージの読み込…

RMeCabを使う (2)

前回に引き続き、RMeCabパッケージの使い方を紹介します。Ngram関数を使うと、以下のように、文字n-gram、単語n-gram、品詞n-gramを簡単に集計することができます。*1 # パッケージの読み込み library(RMeCab) # 文字3-gram Ngram.1.result <- Ngram("C:/PM/…