テキストからの知識獲得支援ツール
スポンサーリンク
概要
- 論文の詳細を見る
我々は自然言語処理のための機械辞書およびその開発環境の開発を行っている。 高度な自然言語処理用の辞書を開発するためには、多様な方法で言語事象を分析する必要がある。言語事象を調べるための知識源は様々である。辞書などの体系付けられた情報、用例集、テキスト等である。本稿では、このうち特に大量に取得可能なテキストを知識源とした場合の知識獲得について考える。テキストから情報を抽出するのは基本的にはパタンマッチである。従来このような目的にはKWIC(Key Word in Context)が用いられてきた。KWICは一般にパタンマッチの機能が弱く、自然言語研究者が要求する複雑な語の並びのパタンや多様な共起関係を得るための機能が不十分である。広汎な知識を収集するにはより高度なパタンの記述能力が必要となる。これはパタンマッチそのものの機能向上だけでなく、記述に品詞等の構文概念を導入する必要がある。またKWICの出力形式は人が見るのに適しているが、計算機で扱うには必ずしも最適ではない。言語解析の対象となるデータはしばしば膨大であり、解析を計算機で行うことは非常に有効である。そのため汎用の機能を実現しようとすると自由な形式で出力できることが望ましい。このためには変数を導入する必要がある。このような要求を満たすツールとしてTOMATO(TOken MATcher ver.0)を開発した。これは形態素解析されたテキスト(トークン列)を対象とし、文字列およびトークン列に対するパタンマッチの機能を備えている。次章でこのツールについて述べる。次にそれを用いて実際に抽出されたデータの例を挙げる。さらに抽出ツールによって得られる大量の言語データを効率的に利用するための一般的なツールについて述べる。
- 一般社団法人情報処理学会の論文
- 1988-09-12
著者
関連論文
- 大規模日本語テキストからの依存構造の抽出
- 情報検索システムにおける効果的なナビゲーション機能の提案
- 電子図書館IV : ナビゲーションシステムプロトタイプ
- 電子図書館III : Information Outlining : 触ってわかる情報の輪郭
- 電子図書館II : 基本設計
- 電子図書館I : 将来像
- コーパスからの対訳辞書の半自動生成
- 抄録からのキーワードの自動抽出
- 抄録からのキーワードの自動抽出
- 抄録からの主題文の自動抽出
- 構文情報を用いたキーワード抽出
- サイト・アウトライニング : インターネットからの情報収集と可視化技術
- テキスト情報の可視化を利用した情報検索(「ビジュアルな情報検索」編集にあたって)
- 個人適応型情報検索システム : 個人の興味を学習する階層記憶モデルとその協調的フィルタリングへの適用
- テキストデータを用いた問題の早期発見手法(意味表現・データマイニング)
- 新聞記事データベースからの話題の抽出II-話題の構造の解析
- 新聞記事データベースからの話題の抽出
- 情報量から見た自然言語処理システムに対する考察
- 漸進的学習機能を備えた日本語形態素解析
- テキストからの知識獲得支援ツール
- IBMプロフェッショナル論文 コールセンターのログデータを用いた製品等の不具合の早期発見
- 情報獲得のパラダイムとしてのInformation Outlining (「1997年情報学シンポジウム」プログラム--人と情報学の調和をめざして) -- (マルチメディア技術2(情報の高度利用に向けて))
- 事例の一般化による機械翻訳