文や句による日本語テキストの検索 : 語と語の係り受けを用いた検索の試み
スポンサーリンク
概要
- 論文の詳細を見る
柔軟なテキスト検索を行なうためには、ユーザの検索要求としてキーワードでなく文や旬をそのまま入力できることが望ましいが、日本語においては、・形態素が分かち書きされていない・語順の自由度が高いなどの特微があることから、日本語テキストの検索システムでは、文や句による検索は、全文検索における完全一致の場合を除いては、実現が困難である。本稿では、システムの頑健性を維持したままで文や旬による柔軟な検索を可能にする手法として、語と語の係り受けを用いた検索の試みを示す。検索要求をキーワードでなく文や句で入力させることにより、・検索式を意識させない・語間関係を反映した検索を行なうというメリットが得られるが、本稿では特に語間関係を反映した検索に焦点を当てる。例として「計算機で開発」という内容の検索を考える。一般的なキーワード検索システムでは、附属語の助詞は検索対象にならず、「計算機」と「開発」のANDをとっただけでは「計算機を開発」も検索されてしまうため、語間関係を考慮した検索は困難である。全文検索システムを用いれば附属語も検索対象になるが、検索要求として「計算機で開発」を指定すると、「計算機で○○を開発」のように挿入を含む文は検索されず、「計算機で」と「開発」のANDをとると、「計算機で…、○○を開発」のように、「計算機で」が「開発」を修飾しないパタンも検索されてしまう。このように従来の手法では、語と語の関係の扱いの問題から、文や句による検索は困難である。語間関係を考慮した手法は、研究レベルでは存在[1]するが、意味的な語間関係を重視してインデックスの構築に人間の処理が介在するため、大規模な文書データベースへの適用は困難であり、実用性を欠いている。実用性を考えた場合、高い精度で自動的にインデックスを作成するのが望ましい。現在の自然言語処理技術で安定して高い精度を期待できるのは形態素解析レベルまでであり、省略の多い日本語の場合は特に、構文解析レベルで文全体を正しく解析するのは困難である。特に、文が長くなると構文解析の精度は落ち、長い文に対して完全な解析結果を得ることは困難である。ただし、長い文の場合でも、解析に失敗するのは、複文や重文における距離の長い係り受けの部分であることが多く、隣接した主語述語関係のような局所的な係り受けの解析は正しい場合が多い。また、日本語の場合は係りの方向が一方向であることから、形態素解析で文節の認識に成功していれば、少なくとも文末の述部に近い部分での係り受け関係に関しては、比較的高い精度で解析できると考えられる。そこで我々は、検索対象となる文書中の各文の構文構造を解析し、構文解析結果全体は用いずに、「係る語-係り関係一係られる語」という3項関係の集合体に変換して文書のインデックス情報として蓄積した上で、この3項関係を利用した検索を試みた。
- 一般社団法人情報処理学会の論文
- 1996-09-04
著者
関連論文
- テキストマイニングの普及に向けて : 研究を実用化につなぐ課題への取組み
- コールセンターにおける目的を持ったビジネス会話のモデリングと会話マイニングへの応用
- 木構造変換を利用した評判分析手法
- パターンベース翻訳システムPalmTreeの文脈処理
- テキストマイニングのための情報抽出
- テキストマイニングのための情報抽出
- 大量のテキストからの知識マイニング
- 知識発見のためのテキストマイニング技術
- 4N-6 知識発見のためのテキストマイニング技術
- テキストマイニングのための情報抽出手法
- 表層的な文脈情報を用いた自然な文生成の試み
- 知識ベースを利用した機械翻訳システムShalt2 ( 自然言語処理の実動システム)
- 英日機械翻訳システムShalt2における並列句の取り扱い
- 編集にあたって(使いやすくなった自然言語処理のフリーソフト : 知っておきたいツールの中身)
- 文脈制約と文脈選好を利用した文脈処理システムDIANA
- 2 テキストマイニング : 膨大な文書データの自動分析による知識発見 (フィールドを広げる自然言語処理)
- テキストマイニング : 膨大な文書データからの知識獲得 : 概要
- テキストマイニング : 膨大な文書データからの知識獲得 : 意図の認識
- 編集にあたって (フィールドを広げる自然言語処理)
- コールセンターにおけるテキストマイニング(「テキストマイニング」)
- テキストマイニング基盤技術(「テキストマイニング」)
- 頑健な文脈処理のパラダイム : 文脈依存性を考慮した自然言語処理
- 文や句による日本語テキストの検索 : 語と語の係り受けを用いた検索の試み
- 文脈情報を利用した自然言語文における構造的曖昧性の解消
- ACL'95会議報告
- 文脈情報を利用した不適格文の構文解析
- 自然言語解析における複数文一括処理手法
- 自然言語処理システムにおける出力信頼度の自動評価
- 文脈制約を利用した曖昧性解消