慣用句抽出のための統計尺度の比較評価(語彙的知識獲得)
スポンサーリンク
概要
- 論文の詳細を見る
テキストマイニングでは,文書DBから単語や単語のペアを抽出して文書DBの特徴としてユーザに表示する。慣用句は,複数の単語で一つの意味を表すため,全体でまとまった単位として扱う必要がある。本研究では,名詞と動詞のペアからなる慣用句を文書DBから抽出する方式を検討した。本稿では,慣用句を抽出するための統計尺度の比較・評価について述べる。相互情報量,x^2, AICの比較実験により,x^2が統計尺度としては最適であることを確認した。また異分野の文書DBを利用することにより,F値が50%から53%に向上した。
- 2004-07-15
著者
-
相薗 敏子
(株)日立製作所 中央研究所
-
小泉 敦子
(株)日立製作所 中央研究所
-
森本 康嗣
(株)日立製作所 中央研究所
-
森本 康嗣
日立製作所中央研究所
-
森本 康嗣
(株)日立製作所
-
森本 康嗣
日立製作所 中央研究所
-
小泉 敦子
(株)日立製作所中央研究所
-
相薗 敏子
(株)日立製作所中央研究所
関連論文
- 情報のメタデータに着目した情報ライフサイクル管理向けポリシー記述方式
- 情報ライフサイクル管理のためのポリシー記述方式とその解釈実行方式
- MapReduce を用いた木構造データのための並列分析処理フレームワーク
- MapReduceを用いた木構造データのための並列分析処理フレームワーク
- MapReduceを用いた木構造データのための並列分析処理フレームワーク
- 企業における非定形文書の活用促進事例 : 営業日報へのテキスト分析技術の適用(自然言語処理技術による情報マネジメントの実際)(自然言語処理の高度化による知的生産性の向上)
- 実世界における手話認識技術(「RWC-実世界知能」)
- マイコン向け音声認識技術を用いた携帯型音声通訳機(音声情報処理 : 現状と将来技術論文特集)
- マイコン向け音声認識技術を用いた携帯型音声通訳機(音声処理技術のデモの紹介)
- D-14-27 音声による単語入力機能を持つ携帯型通訳機の開発
- 共起語集合の類似度に基づく対訳コーパスからの対訳語抽出
- M-006 文書クラスタリングを用いたコミュニティ抽出(M分野:ユビキタス・モバイルコンピューティング)
- E-035 共起漢字ベクトルを用いた同義語抽出方式(E.自然言語・文書・ゲーム)
- 慣用句抽出のための統計尺度の比較評価(語彙的知識獲得)
- テキストコーパスからのトピック階層の抽出(自然言語)(コラボレーションアートとネットワークエンターテイメント)
- I-82 WWW有害情報のフィルタリングのための画像判別手法(画像レイアウト解析,I.画像認識・メディア理解)
- コーパス対応の関連シソーラスナビゲーション
- JEIDA機械翻訳システム評価基準(開発者編) : 開発者のための評価項目の作成と検討
- 重要文抽出と不要語句削除による抄録作成方式
- 表層レベルにおける電子化辞書の情報構造
- 解説 手と頭の動きを用いた手話-日本語翻訳技術--頭部動作が持つ文法情報を解析し翻訳精度を向上
- 頭部動作と手動作の情報を統合した手話文認識システムの開発
- 頭部動作によって表される手話文法情報を利用した手話認識方式
- A-14-16 手話発話データベースおよび手話文法解析支援ツールの開発
- 組織情報を用いた人名の暖昧性解消方式(形態素・固有表現)
- 組織情報を用いた人名の暖昧性解消方式(形態素・固有表現)
- E-034 決定木の逐次学習による固有表現抽出(E.自然言語・文書・ゲーム)
- 携帯電話向け音声通訳システムの開発と公開実験
- 定型文認識を用いた携帯電話向け音声通訳システム
- 交通ICカード利用履歴を用いた生活行動属性指標の提案(行動解析,ユーザ属性情報,ライフログ活用技術,オフィスインフォメーションシステム,ライフインテリジェンス,一般)