corpus

Heat map with hierarchical clustering: Multivariate visualization method for corpus-based language studies

『国立国語研究所論集』(NINJAL Research Papers) というジャーナルに、以下の論文が掲載されました(オープンアクセスですので、こちらからダウンロードすることができます)。手法の解説だけでなく、Rのスクリプトを載せています。 Yuichiro Kobayashi (20…

Investigating metadiscourse markers in Asian Englishes: A corpus-based approach

Language in Focusというジャーナルに、以下の論文が掲載されました(オープンアクセスですので、こちらからダウンロードすることができます)。 Yuichiro Kobayashi (2016). Investigating metadiscourse markers in Asian Englishes: A corpus-based appro…

Exploring the effectiveness of combined web-based corpus tools for beginner EFL DDL

Linguistics and Literature Studiesというジャーナルに、下記の共著論文が出版されました。筆頭著者は、日本大学の中條清美先生です。なお、本論文は、こちらで一般公開されています。 Kiyomi Chujo, Yuichiro Kobayashi, Atsushi Mizumoto, & Kathryn Oghi…

JEFLL Corpusの使い方

この記事は、日本人中学生・高校生約1万人の自由英作文データを集めたJEFLL Corpusの使い方に関する授業資料です(随時更新)。JEFLLの詳細や利用規定に関しては、リンク先を参照してください。また、検索方法に関しては、各自「ヘルプ」を読んでください。 …

書評『英語コーパスを活用した言語研究』

今月発売の『英語教育』に、ハーンス・リンドクヴィスト『英語コーパスを活用した言語研究』の書評を書かせて頂きました。拝読した感想は紙面に書いたとおりなのですが、書かなかったこととしては、Project Gutenbergで「利用可能なテクストの質は100%保証さ…

外国語教育研究におけるスピーキングとライティングの自動採点・評価

来たる3月19日(土)、早稲田大学CCDL研究所第1回シンポジウム「外国語教育研究におけるスピーキングとライティングの自動採点・評価」が開催されます。主なプログラムは、以下の通りです。皆さまのご来場を心よりお待ち申し上げております(参加申し込みは…

人文情報学の方法論に基づく歌詞の体系的分析

『人文情報学月報』の第53号に「巻頭言」を書かせて頂きました。基本的には、じんもんこん2015で報告した研究内容に基づいています。 小林雄一郎 (2015). 「人文情報学の方法論に基づく歌詞の体系的分析」 『人文情報学月報』53. Online.

Rによる英文テキスト処理

Rで英語のテキストを分析する方法について、学部の紀要に文章を書きました。主に、(1) Rとパッケージのインストール、(2) データの読み込み、(3) KWICコンコーダンス、(4) コンコーダンスプロット、(5) コロケーションテーブル、(6) ワードリスト、(7) ワー…

The 19th Joint Workshop on Linguistics and Language Processing

来たる12月11~12日、早稲田大学でThe 19th Joint Workshop on Linguistics and Language Processingが開催されます。そこで私も、口頭発表をさせて頂くことになりました。 Yuichiro Kobayashi (2015). A contrastive rhetoric analysis of metadiscourse ma…

「通時コーパス」国際シンポジウム

来たる10月4日(日)、国立国語研究所で「通時コーパス」国際シンポジウムが開催されます。私も、同じ大学の岡崎友子先生と一緒に講演枠で発表をさせて頂くことになりました。*1 岡崎友子・小林雄一郎 (2015). 「中古作品における接続表現の統計的分析―指示…

Second International Symposium on EFL Writing in East Asia

来たる10月31日(土)、東京大学でSecond International Symposium on EFL Writing in East Asiaが開催されます。これは、「第二言語ライティング研究の現代的課題と解決のための将来構想―東アジアからの発信―」という科研プロジェクト(基盤研究B、代表者: …

Effects of a writing prompt on L2 learners' essays

現在ランカスターで開催されているCorpus Linguistics 2015のアブストラクトが公開されました。我々は、以下のような発表を行いました。*1 Masumi Narita, Mariko Abe, & Yuichiro Kobayashi (2015). Effects of a writing prompt on L2 learners' essays. C…

語彙多様性とリーダビリティを用いたテキスト分析

外国語教育メディア学会中部支部の『外国語教育基礎研究部会2014年度報告論集』に以下の原稿を載せて頂きました。センター試験の英語長文問題を例に、Rによる分析を行いました。本稿のPDFは、こちらで公開されています。*1 小林雄一郎 (2015). 「語彙多様性…

stringrを使った文字列処理 (3)

今回も、stringrパッケージを使った文字列処理を紹介します。まず、str_subset関数を使うと、指定したパターンにマッチする文字列を含む要素が得られます。 # パッケージの読み込み library(stringr) # パターンにマッチする文字列を含む要素を抽出 verbs <-…

stringrを使った文字列処理 (2)

今回も、stringrパッケージを使った文字列処理を紹介します。まず、大文字と小文字の置換を行うには、str_to_upper関数、str_to_lower関数、str_to_title関数が便利です。 # パッケージの読み込み library(stringr) # 大文字と小文字の置換 x <- "R is a fre…

stringrを使った文字列処理 (1)

今回は、stringrパッケージを使った文字列処理を紹介します。まず、str_length関数を使うと、文字列の長さを計算することができます。 # パッケージの読み込み library(stringr) # 文字列の長さ str_length("have") 上記のスクリプトを実行すると、以下のよ…

Rでリーダビリティを計算する

本日、ニフティで開催される第48回R勉強会@東京 (Tokyo.R) において、「Rでリーダビリティを計算する」というLTをします。発表スライドは、以下のリンクから見ることができます。 小林雄一郎 (2015). 「Rでリーダビリティを計算する」第48回R勉強会@東京. …

Symposium on Second Language Writing 2015から採択通知

来たる2015年11月19〜21日にニュージーランドのオークランド工科大学で開催されるSymposium on Second Language Writing 2015に採択されました。 Yuichiro Kobayashi (2015). Investigating metadiscourse markers in Asian Englishes: A corpus-based appro…

書き手を識別するためのクラスタリング手法の検討

来たる4月18日(土)、国立国語研究所にて、「通時コーパスの設計」近代語グループ 研究会(非公開)が開催されます。主な内容は、以下のとおりです。 小島聡子「宮沢賢治と浜田広介の文体比較―話し言葉的側面の出方について」 小林雄一郎「書き手を識別する…

コーパス言語学研究における頻度差の検定と効果量

『外国語教育メディア学会 (LET) 関西支部メソドロジー研究部会報告論集』の第6号がこちらで全文公開されました。今回は、私も以下の論文を寄稿させて頂きました。 小林雄一郎 (2015). 「コーパス言語学研究における頻度差の検定と効果量」 『外国語教育メデ…

Corpus Linguistics 2015から採択通知

来たる2015年7月21〜24日にイギリスのランカスター大学で開催されるCorpus Linguistics 2015に採択されました。 Masumi Narita, Mariko Abe, & Yuichiro Kobayashi (2015). Effects of a writing prompt on L2 learners' essays. Corpus Linguistics 2015. …

潜在的意味解析による分類

今回は、複数のテキストから作成した文書ターム行列に潜在的意味解析を行う方法を紹介します。*1 分析データは、石田 (2008) のサンプルデータにおける森鴎外と夏目漱石のテキスト(合計8編)とします。また、潜在的意味解析には、各テキストにおける名詞、…

頻度差の検定の効果量としてファイ係数とクラメールのVを用いる

この記事は、頻度差の検定の効果量としてオッズ比を用いるという記事の続編です。今回は、効果量としてのファイ係数とクラメールのVについて書きたいと思います。 最初の分析データとしては、前回と同じ言語項目の正用と誤用の頻度を集計した分割表を使いま…

頻度差の検定の効果量としてオッズ比を用いる

コーパス分析で頻度差を検定する場合、カイ二乗検定や対数尤度比検定がよく使われます。しかし、このような検定には、サンプル・サイズが大きくなれば、実質的な差がなくとも、「有意差あり」という誤った結果が得られる危険性があります。そのようなときに…

習熟度尺度におけるレベル分割点の決定―統計的シミュレーションを用いて

12月20日(土)、沖縄県青年会館で開催された外国語教育メディア学会関西支部メソドロジー研究部会で、「習熟度尺度におけるレベル分割点の決定―統計的シミュレーションを用いて」という発表をしてきました。そのスライドを以下で公開しています。*1 小林雄…

共起語の対数尤度比とダイス係数を求める

QiitaのR Advent Calendar 2014の20日目の記事です。*1 共起語とは、分析対象とする単語(中心語、あるいは検索語)の近くによく一緒に現れる単語のことです。実際の分析を行うにあたっては、どれくらい「近く」に現れる単語を共起語とみなすのか、また、ど…

Rパッケージにおける言語関連のデータ #RAdventJP

R Advent Calendar 2014の8日目の記事です。自分メモをかねて、Rパッケージにおける言語関連のデータをまとめてみました(随時更新中)。*1 因みに、zipfRパッケージのデータを読み込む場合は、パッケージのマニュアルを参照してください。*2 dataset descri…

テキストマイニングによる言語研究

このたび、『テキストマイニングによる言語研究』という共著書をひつじ書房より刊行することになりました(2014年12月12日刊行予定)。テキストマイニングによる言語研究 (ひつじ研究叢書(言語編) 第121巻)作者: 岸江信介,田畑智司出版社/メーカー: ひつじ書…

Computer-aided error analysis of L2 spoken English: A data mining approach

11月14日(金)、カラチのDHA Suffa Universityで開催された5th Conference on language and Technology (CLT) において、"Computer-aided error analysis of L2 spoken English: A data mining approach"という発表をしてきました。*1 内容的には、8月のPAAL…

単語を重み付けする

今回は、TF-IDF (term frequency–inverse document frequency) という方法で単語の重み付けを行う方法を紹介します。TFは単語の観測頻度、IDFは全文書数をその単語が出現した文書で割って対数をとった値となります。*1 分析データは、金明哲先生が公開してお…