テキストコーパスからのトピック階層の抽出(自然言語)(<特集>コラボレーションアートとネットワークエンターテイメント)
スポンサーリンク
概要
- 論文の詳細を見る
タームの共起性に基づく関連シソーラスは,コーパスから自動生成することができるという利点を持つ.しかし,情報検索システム内部の処理に向いたシソーラスであり,情報空間を人間が理解するという目的には必ずしも適していない.関連シソーラスを人間向きのシソーラスに高めるため,関連シソーラスからトピック階層とトピックの代表タームリストを抽出する方法を開発した.最初に,比較的頻度の高いタームをクラスタリングすることにより,包括的なトピックの集合を抽出する.次に,トピックの代表タームと関連が強いタームをクラスタリングすることにより,各トピックをより限定的なトピックに分割する.また,タームのトピック代表性の指標として新たに提案したタームグループ内累計相互情報量を用いて,トピックの代表タームを抽出する.これらの処理により,トピックを表すタームリストが階層的に配置されたシソーラスを生成する.日本語の新聞記事コーパスを用いた評価実験では,最上位のタームリストの89%,下位のタームリストの76%が有効なトピックを示唆し,代表タームの3分の2近くがトピックのコアタームであった.この結果,本方法が大規模コーパスの情報空間を可視化する効果的な手段であるとの結論を得た.また,プロトタイプの試用を通じて,シソーラス作成ツールおよび文書データベースのブラウジングツールとしての実際的な効果を確認した.
- 2003-02-15
著者
-
相薗 敏子
(株)日立製作所 中央研究所
-
森本 康嗣
日立製作所中央研究所
-
梶 博行
日立製作所中央研究所
-
相薗 敏子
日立製作所中央研究所
-
森本 康嗣
日立製作所 中央研究所
-
梶 博行
日立製作所 関西システムラボラトリ
-
相薗 敏子
(株)日立製作所中央研究所
関連論文
- 情報のメタデータに着目した情報ライフサイクル管理向けポリシー記述方式
- 情報ライフサイクル管理のためのポリシー記述方式とその解釈実行方式
- 座談会「機械翻訳における中間言語方式をめぐって」 : 1989.5.26 10:00〜12:00 於:オーム社 (「機械翻訳」)
- MapReduce を用いた木構造データのための並列分析処理フレームワーク
- MapReduceを用いた木構造データのための並列分析処理フレームワーク
- MapReduceを用いた木構造データのための並列分析処理フレームワーク
- 企業における非定形文書の活用促進事例 : 営業日報へのテキスト分析技術の適用(自然言語処理技術による情報マネジメントの実際)(自然言語処理の高度化による知的生産性の向上)
- 「言語理解-SHRDLUの先にあるもの-」へのコメントと回答
- 共起語集合の類似度に基づく対訳コーパスからの対訳語抽出
- M-006 文書クラスタリングを用いたコミュニティ抽出(M分野:ユビキタス・モバイルコンピューティング)