大規模日本語テキストからの依存構造の抽出
スポンサーリンク
概要
- 論文の詳細を見る
近年、種々の機械可読の大規模コーバスが利用可能になってきており、それらを用いて、書語知識を獲得する多くの研究がなされている。効率的に知識を抽出するためには、文字列レベルだけでなく、形態素レベルの情報、構文レベルの情報、さらには、意味レベルの情報が必要となる。しかし、現技術レベルでは、形態素解析は、99%以上の精度で解析できるものの、構文解析は、よくても80%程度であり、十分な精度力糊待できない。そのため、日本語においてこのような言語データベースは、解析結果を人手で修正することによって作成されているが、その作業には非常に大きな労力を必要とする。かなり長い時間・多くの費用を掛けても、数万~数十万文程度の解析データしか得られない。統計的な情報の有効性は、その母集団の大きさに依存するものであり、実用的な自然言語処理に有効な情報を得るには、非常に大量のテキストから解析データを作成する必要がある。そこで、本稿では、大量のテキストデータから、その形態素解析の結果を利用して、依存構造を抽出する手法を提案する。依存構造は様々な用途に利用できるが、多くの場合、1文すべてに対する依存構造が必要であるわけではなく、1文中の一部の依存構造で十分である。単に2項の依存構造でも有効な情報を持つ。また、文節内のすべての単語についての掛かり受けが必要である訳ではなく、文節の中心となる語(以降ヘッドと呼ぶ)の間の関係のみで十分である。例えば、名詞複合語などが出現している場合は、その一番最後の単語のみの関係を抽出すればよい。本稿では、各文節のヘッドと関係およびそれらの依存構造を以下のように表す。提出13する考え19を示41:23つの文節があり、それらのヘッドと関係はそれぞれ、(提出13.する),(考え19,を),(示4)である。語幹の後の数字は品詞コードである(19は一般名詞)。最初の文節を0とすると、文節の掛かり受け関係は、0→1,1→2となる。本手法は、網羅的に情報を獲得するという従来の言語データベース作成の試みとは異なり、1つの文に対し、完全な解析結果を作成しない。そのかわりに、「文全体ではなく、非常に高い精度が期待できる部分のみを抽出する。」ことによって、大量の依存構造を自動的に抽出することを目的とする。
- 1994-09-20
著者
関連論文
- 大規模日本語テキストからの依存構造の抽出
- 情報検索システムにおける効果的なナビゲーション機能の提案
- 電子図書館IV : ナビゲーションシステムプロトタイプ
- 電子図書館III : Information Outlining : 触ってわかる情報の輪郭
- 電子図書館II : 基本設計
- 電子図書館I : 将来像
- コーパスからの対訳辞書の半自動生成
- 抄録からのキーワードの自動抽出
- 抄録からのキーワードの自動抽出
- 抄録からの主題文の自動抽出
- 構文情報を用いたキーワード抽出
- サイト・アウトライニング : インターネットからの情報収集と可視化技術
- テキスト情報の可視化を利用した情報検索(「ビジュアルな情報検索」編集にあたって)
- 個人適応型情報検索システム : 個人の興味を学習する階層記憶モデルとその協調的フィルタリングへの適用
- テキストデータを用いた問題の早期発見手法(意味表現・データマイニング)
- 新聞記事データベースからの話題の抽出II-話題の構造の解析
- 新聞記事データベースからの話題の抽出
- 情報量から見た自然言語処理システムに対する考察
- 漸進的学習機能を備えた日本語形態素解析
- テキストからの知識獲得支援ツール
- IBMプロフェッショナル論文 コールセンターのログデータを用いた製品等の不具合の早期発見
- 情報獲得のパラダイムとしてのInformation Outlining (「1997年情報学シンポジウム」プログラム--人と情報学の調和をめざして) -- (マルチメディア技術2(情報の高度利用に向けて))
- 事例の一般化による機械翻訳