テキストコーパスからのトピック階層の抽出(自然言語)(<特集>コラボレーションアートとネットワークエンターテイメント)
スポンサーリンク
概要
- 論文の詳細を見る
タームの共起性に基づく関連シソーラスは,コーパスから自動生成することができるという利点を持つ.しかし,情報検索システム内部の処理に向いたシソーラスであり,情報空間を人間が理解するという目的には必ずしも適していない.関連シソーラスを人間向きのシソーラスに高めるため,関連シソーラスからトピック階層とトピックの代表タームリストを抽出する方法を開発した.最初に,比較的頻度の高いタームをクラスタリングすることにより,包括的なトピックの集合を抽出する.次に,トピックの代表タームと関連が強いタームをクラスタリングすることにより,各トピックをより限定的なトピックに分割する.また,タームのトピック代表性の指標として新たに提案したタームグループ内累計相互情報量を用いて,トピックの代表タームを抽出する.これらの処理により,トピックを表すタームリストが階層的に配置されたシソーラスを生成する.日本語の新聞記事コーパスを用いた評価実験では,最上位のタームリストの89%,下位のタームリストの76%が有効なトピックを示唆し,代表タームの3分の2近くがトピックのコアタームであった.この結果,本方法が大規模コーパスの情報空間を可視化する効果的な手段であるとの結論を得た.また,プロトタイプの試用を通じて,シソーラス作成ツールおよび文書データベースのブラウジングツールとしての実際的な効果を確認した.
- 2003-02-15
著者
-
相薗 敏子
(株)日立製作所 中央研究所
-
森本 康嗣
日立製作所中央研究所
-
梶 博行
日立製作所中央研究所
-
相薗 敏子
日立製作所中央研究所
-
森本 康嗣
日立製作所 中央研究所
-
梶 博行
日立製作所 関西システムラボラトリ
-
相薗 敏子
(株)日立製作所中央研究所
関連論文
- 情報のメタデータに着目した情報ライフサイクル管理向けポリシー記述方式
- 情報ライフサイクル管理のためのポリシー記述方式とその解釈実行方式
- 座談会「機械翻訳における中間言語方式をめぐって」 : 1989.5.26 10:00〜12:00 於:オーム社 (「機械翻訳」)
- MapReduce を用いた木構造データのための並列分析処理フレームワーク
- MapReduceを用いた木構造データのための並列分析処理フレームワーク
- MapReduceを用いた木構造データのための並列分析処理フレームワーク
- 企業における非定形文書の活用促進事例 : 営業日報へのテキスト分析技術の適用(自然言語処理技術による情報マネジメントの実際)(自然言語処理の高度化による知的生産性の向上)
- 「言語理解-SHRDLUの先にあるもの-」へのコメントと回答
- 共起語集合の類似度に基づく対訳コーパスからの対訳語抽出
- M-006 文書クラスタリングを用いたコミュニティ抽出(M分野:ユビキタス・モバイルコンピューティング)
- E-035 共起漢字ベクトルを用いた同義語抽出方式(E.自然言語・文書・ゲーム)
- 慣用句抽出のための統計尺度の比較評価(語彙的知識獲得)
- テキストコーパスからのトピック階層の抽出(自然言語)(コラボレーションアートとネットワークエンターテイメント)
- I-82 WWW有害情報のフィルタリングのための画像判別手法(画像レイアウト解析,I.画像認識・メディア理解)
- コーパス対応の関連シソーラスナビゲーション
- 対訳テキストを利用した訳語選択のための共起関係の自動抽出
- テキストからの共起関係自動抽出の試み
- 組織情報を用いた人名の暖昧性解消方式(形態素・固有表現)
- 組織情報を用いた人名の暖昧性解消方式(形態素・固有表現)
- E-034 決定木の逐次学習による固有表現抽出(E.自然言語・文書・ゲーム)
- 第19回計算言語学国際会議
- 電子図書館システムの技術動向
- 交通ICカード利用履歴を用いた生活行動属性指標の提案(行動解析,ユーザ属性情報,ライフログ活用技術,オフィスインフォメーションシステム,ライフインテリジェンス,一般)
- 多品種商品を扱う店舗の需要予測のための商品選択予測手法の構築(システム応用,ライフログ活用技術,オフィスインフォメーションシステム,ライフインテリジェンス,及び一般)