部分文字列のパープレキシティを利用した低頻度専門用語抽出(用語・情報抽出)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,専門分野コーパス内に出現頻度の低い専門用語の候補文字列があるときに,その文字列を構成する部分文字列および専門分野コーパス内での周辺文字列のパープレキシティ用いて,専門用語としてのスコア付けを行う手法を提案する.文字列が与えられたときに,文字列を構成するn-gramの部分文字列を抽出しレそれらの専門分野コーパスでのパープレキシティを計算する.また同時に,専門分野コーパス内で文字列の周囲に現れるn-gramの周辺文字列のパープレキシティを計算し,これらの比を文字列のスコアとして設定する.本手法の評価実験として,インターネット上で公開されている病名辞書および解剖学用語辞書の見出し語を構成する文字列で,約6,7000件の医療テキスト内での出現回数が5回以下の文字列についてスコア付けを行い,上位200文字列の用語としての成立の可否を医師が確認した.また,比較のため名詞の出現頻度および連接頻度を用いるTerm Extractでも同様の実験を行った.結果として平均で,1-gramでは正解率70.4%,2-gramでは正解率83.5%が得られ,Term Extractによる正解率,70.6%と比較して良好な結果が得られた.
- 社団法人電子情報通信学会の論文
- 2007-07-17
著者
-
三浦 康秀
富士ゼロックス(株)研究技術開発本部システム要素技術研究所
-
増市 博
富士ゼロックス(株)研究技術開発本部システム要素技術研究所
-
増市 博
富士ゼロックス (株) 中央研究所
-
増市 博
富士ゼロックス(株)
関連論文
- 日本語LFGにもとづく助数詞の処理
- Wikipediaカテゴリ階層構造の固有名詞分類実験における効果(語彙・知識獲得)
- Wikipediaカテゴリ階層構造の固有名詞分類実験における効果(語彙・知識獲得)
- 部分文字列のパープレキシティを利用した低頻度専門用語抽出
- 部分文字列のパープレキシティを利用した低頻度専門用語抽出(用語・情報抽出)
- 臨床テキストに対する医学オントロジーに基づくアノテーション手法に関する研究(言語理解とオントロジーシンポジウム)
- Lexical Functional Grammarに基づく言語解析の現状とその応用(深い言語処理のためのフレームワーク)
- Amazonレビュー文の有用性判別実験(解析,分析)
- 日本語LFGを用いた副助詞の多義性解消
- 生成のための日本語LFG文法の構築
- 語彙的連鎖からの名詞照応連鎖の抽出(抽出(2))
- 語彙的連鎖からの名詞照応連鎖の抽出(抽出(2))
- 文法記述に基づく言語解析の進展と多言語処理の可能性
- Support Vector Machineに基づくf-structureの選択(構文,係り受け解析)
- Support Vector Machine に基づくf-structureの選択(構文, 係り受け解析)(言語理解とコミュニケーション)
- Support Vector Machine に基づく f-structure の選択
- 日本語LFGパーザによる助詞・助動詞の無形表示の統語意味解析
- 日本語LFGパーザによる助詞・助動詞の無形表示の統語意味解析
- LFG解析と語彙資源を利用した日本語含意関係判定(含意関係認識・解析・語彙)
- デ-10 読影レポートを対象とした予測入力システム(デモセッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 問題解決のための階層型自律分散システムの構成
- Lexical Functional Grammar に基づく実用的な日本語解析システムの構築
- 対話型ソフトウェア構築のためのマルチエージェント
- 形態素解析を用いた全文検索システムとその応用
- 2U-6 関連文書検索システムの開発(4) : 関連文書検索
- 2U-5 関連文書検索システムの開発(3) : 複合語辞書
- 2U-4 関連文書検索システムの開発(2) : 構造化文書の処理
- 2U-3 関連文書検索システムの開発(1) : 全体構成
- LFG理論をめぐる言語処理研究の発展(ポスト経験主義の言語処理)
- LFG理論をめぐる言語処理研究の発展
- 営業支援システム内に蓄積されたテキストデータからの課題記述文抽出(抽出,第2回テキストマイニング・シンポジウム)