東京外国語大学の投野 由紀夫教授は、コーパス言語学の第一人者として著名な言語学者です。
投野先生は2003年にNHK「100語でスタート英会話」の講師に就任し、「コーパスくん」というキャラクターを登場させて、コーパス言語学の考え方を全国に広めました。現在はNHKラジオ「基礎英語3」の講師としてもおなじみで、そこでも「ロボコーパス」というキャラクターを登場させています。
今回はそんな投野先生にお話を伺い、「コーパスとは何か?」「コーパスは英語の習得とどう関わっているのか?」ご説明頂きました。
Q1. そもそもコーパスとは何でしょうか?
Q2. コーパスは低年齢の幼児や児童の英語教育にも有効でしょうか?
Q3. コーパスとチャンクの関係性を教えてください。
Q4. 日本人が苦手な英語とはどういうものですか?
Q5. 子供にとって英語習得に良い環境とはどういうものでしょうか?
Q1. そもそもコーパスとは何でしょうか?
コーパスとは膨大な量の役立つ語彙集
「コーパス」とは、実際に話されたり書かれたりした言葉のサンプルを大量にコンピュータに集め、情報をつけ加えたりしてデータ分析できるようにしたデータベースのことをいいます。
コーパスをつくるときは、シーンや設定ごとにバランスよくデータを集めます。「話し言葉」と「書き言葉」では違いがありますし、また同じ「話し言葉」でも「会話」と「講義」では違うので、そういった表現の違いも網羅していくのです。
こうして膨大な語彙を収集してデータベース化することで、コーパスを検索すれば、どんな単語がよく使われているのか、どんなシーンでどんな表現を使うのが自然なのか、といったことを明らかにしていくことができます。
1990年代に設立されたイギリスのBritish National Corpusというコーパスでは当時総語数で1億語のイギリス英語のテキストが集まっていました。
現在のコーパスはインターネットからコンピュータが自動的にテキストを集められるようになったので、何百憶語という規模になっています。
コーパスの研究は各国で進められていますが、日本語コーパスや言語処理の水準は世界的にみてもかなり進んでいる方です。
話題の自動翻訳にも貢献
今話題となっている自動翻訳機のベースにもコーパスが大きく関係しています。それまでは1つひとつの単語を文法でルール化して訳そうとしていました。しかし、人間の言語はあまりに多様すぎてうまく訳すことができず、頭打ちとなってしまっていました。現在ではコーパスなどの例文ベースで訳した結果を基に、AIがどんどん学んで似たような訳を引っぱってこられるようになり、より優れた翻訳ができるようになっています。
Q2. コーパスは低年齢の幼児や児童の英語教育にも有効でしょうか?
子供が学ぶべき英語の語彙が把握できる
幼児や児童の初期の英語教育にはどのようなものがいいかといったプログラム作りの資料として、コーパスは大いに役立ちます。
幼児のネイティブスピーカーの会話や絵本などのコーパス・データがあれば、学ぶべき語彙の情報が得られ、どの段階で何を教えたらいいかを把握できるからです。
また、どの段階までにどのくらいの英語の語彙を身につけたらいいのかを決める指針の1つとして、コーパス分析が利用されたりしています。
例えば、CEFR(※1)で小学校で身につく英語の語彙数が大体A1レベル(約1000語)とされていますが、これを目安として、新しい学習指導要領での小学校で学ぶ英語の語彙数は約600~700語くらいになると言われています。こうした目安となる語彙数はコーパスの分析である程度客観的な数字が示されており、それが教科書づくりにも反映されているのです。
※1 CEFR(Common European Framework of Reference for Languages):
CEFR=ヨーロッパ言語共通参照枠とは、 欧州評議会で提唱された言語学習者の習得状況を示す際に用いられている国際指標のこと。
外国語の運用能力を同一の基準で測ることで、言語の枠や国境を越えて、外国語の学習・教授・評価のための方法を提供することを目的としている。
Q3. コーパスとチャンクの関係性を教えてください。
単語は塊(かたまり)で覚えるのが英会話のコツ
チャンク(※2)とコーパスには密接な関係があって、英単語は単語単体で意味を成すと思われていますが、実は周囲の一緒に使われる単語によって意味が決まってくるものです。つまり、単語は単体よりもセットで覚えていた方が自然な英語がぱっと出やすいわけです。
単語をバラバラの意味で覚えていて、それを機械的にくっつけようとするとネイティブがやらないような組み合わせで単語を並べてしまい不自然になります。それならネイティブの使い方をそのまま丸ごと覚える方がずっと効率が良く便利なのです。
高頻度で使われている英単語のデータをコーパスで調べ、塊≒チャンクとして覚えておけば、スムーズでより自然な表現の会話ができるのです。
※2 チャンク(chunk):
英語学習の際に重視される、数個の単語からなる「塊」あるいは「決まり文句」を意味する語。
Q4. 日本人が苦手な英語とはどういうものですか?
日本人だからこそのエラーパターン
私の研究に、実際に学んでいる学習者がレベル別にどんな英語を使用しているのか知る「学習者コーパス」という分野があります。その研究で、日本人がよく間違える英語にいくつかのパターンがあることがわかっています。「初級学習者が上達するにつれて減っていくエラー」と、逆に「上達すると増えていくエラー」、そして「初級から上級までずっと変わらないエラー」です。
「減っていくエラー」は動詞の形のエラーです。過去形、過去完了形などの時制、数や人称("I"や"he"など)に合わせて形を変えなければいけないのですが、そういった動詞の形のエラーです。
「増えるエラー」は名詞のエラーです。それは主に単語の選択エラーで、上級者になって語彙数が増えることで、似たような意味の名詞の使い方の誤りが増えます。例えば、「原因」という意味には、"reason"や"cause"という単語がありますが、"cause"というのは動詞で使うと悪いことを引き起こす、という意味で使う単語です。それなのによい意味に使ってしまったりする。どのようなシーンでどの単語を使うかということは日本語からだけではわかりにくく、中級者以上に多いエラーとなっています。
「変わらないエラー」はたとえば冠詞のエラーです。日本には冠詞の概念がありませんから、日本人にとって冠詞はものすごく苦手な品詞で、国際的にみても日本人の冠詞エラーは非常に多いです。また、名詞が数えられたり数えられなかったりするのも日本人にはわかりにくいですね。普通に数えられると思っているものが英語では数えられなかったりしますので、間違えることが多いです。
Q5. 子供にとって英語習得に良い環境とはどういうものでしょうか?
レベルに合った楽しい英語にたくさん触れること
子供には、日本語とは違う言語への興味をもたせることがとても重要です。新しい言葉を学ぶ楽しさ、日本と違う英語の世界観や文化などに関心がもてるようにしてあげましょう。
そのためには、子供が面白いと感じ、かつレベルに合ったやさしい英語にたくさん触れることができる環境が必要です。
例えば、やさしい英語の歌だったり、楽しい映像や絵本など、何度も繰り返し聞かせたり見せたりすると良いでしょう。
必ずしも勉強という感じで取り組む必要はありません。英語の音声や映像をただ聞いたり見たりしているだけで、英語の音に慣れてきて、意味がわかる範囲で英語をピックアップでき、学習効果が上がると言われています。ただこのときにできるだけ映像で意味が推測できたり、語彙レベルがその子供にだいたい合ったものを選ぶことが大事です。
それが将来の学びの基礎となりますので、どのくらい身についたかといった心配はあまりせずに、楽しい英語にたくさん触れさせ続けてください。
インタビューを終えて
コーパスを分析することで、優先して覚えるべき英語の語彙や日本人が英語で間違えやすいポイントを明らかにできるため、英語学習を大きく効率化できる可能性がある、とのことでした。
投野先生によると、英語のネイティブスピーカーの会話は約100の単語が約7割を占めているそうです。さらに、英単語を2000語ぐらい使いこなせれば、どんな会話でも約9割の話ができ、リーディングもできるようになるそうです。
多くの日本人が苦手意識をもっている英語のスピーキングですが、100語の単語だけで7割の会話ができると思えば気が楽になります。
子供が英語の重要な語彙をしっかり吸収できるように、楽しく英語に触れられる環境を作っていきたいですね。
プロフィール:投野 由紀夫(とうの ゆきお)
東京外国語大学大学院教授。言語学博士。英国ランカスター大学でPh.D.(コーパス言語学)を取得。専門は辞書学・コーパス言語学を応用した英語語彙習得研究。英語コーパス学会会長。
NHKテレビ英語講座『100語でスタート! 英会話』(2003-2005年度放送)で講師を勤め、日本で初めて語学番組にコーパスを導入。『NHK基礎英語データベース』の監修も担う。
主な著書に『プログレッシブ英和中辞典』編集主幹(小学館)、『エースクラウン英和辞典』編者(三省堂)、『NHK基礎英語英語データベース Mr.コーパス投野由紀夫のより抜き表現360』(NHK出版)、『コーパス1800』『コーパス3000』『コーパス4500』(東京書籍)、『クラウン チャンクで英単語』シリーズ(三省堂)など多数。