Wikipedia日本語版をコーパスとして用いた言語研究の手法
スポンサーリンク
概要
- 論文の詳細を見る
近年、コーパスを用いた言語研究の手法に多くの注目が集まっている。英語に関しては以前から、British National Corpusをはじめ、大規模なコーパスが複数存在している。また日本語を含む他のいくつかの言語に関しても、これらに匹敵する規模のコーパスの構築が進められている。しかし現時点で、研究者が自由に利用できる日本語コーパスの選択の幅は非常に限られている。要因としては、テキストデータの著作権に関する問題と、それに付随する様々な制約といったものが挙げられる。 このような状況を鑑み、本稿ではオープンソース-すなわち著作権フリーで再配布・改良自由の形式-で提供されるインターネット百科事典サイトWikipedia日本語版のデータをコーパスとして用いることを提案する。また、Wikipediaのアーカイブファイルから言語学的に有用なデータを抽出するために筆者が開発したツールキットを紹介し、解説を行う。本稿で解説するツールキットはプログラミング言語Rubyを用いて作成されており、2つのプログラムから成る。第1のプログラムwp2txt.rbは、オリジナルのXMLデータから各種のタグ類を除去するとともに、指定されたサイズのテキストファイルにデータを分割する。第2のプログラムmconc.rbは、入力ファイル中のデータを文ごとに分割するとともに、オープンソースの形態素解析システムMeCabを用いて、あらかじめ正規表現(Regular Expressions)で指定された形態素パターンとマッチするものだけをCSV形式で出力する。これにより、例えば「このツールは言語分析にかかる時間と労力を省く」といった文字列を抽出するのに、〈時間と労力を省く〉のような表層形式だけでなく、〈名詞+助詞+名詞+助詞+動詞〉のような品詞の並びによる指定や、〈時間と労力+助詞+動詞〉といったミックス形式での指定が可能になる。 Wikipedia日本語版を活用することにより、最低限の環境を整えるだけで、用例採取や言語現象の定量的分析のための大規模コーパスが得られる。また、同一の言語データを異なる研究者やプロジェクト間で共有することができる。つまり、Wikipediaコーパスは、追試・修正・拡張・応用といった試みに対し、完全に開かれた研究資源を提供するのである。このことは、日本語を対象とする様々な言語研究の可能性を大きく広げると考えられる。