ラベルなしデータを用いた素性増強による日本語固有表現抽出方法
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,日本語固有表現抽出における精度改善のための手法を提案する.日本語の固有表現抽出においては,単語の明確な境界がないために,単語認識を行った後に抽出を行う方法が幅広く用いられている.しかし,この方法では,単語の一部だけが固有表現を構成しうるという問題が生じる.この問題に対し,本論文では,単語単位の固有表現抽出の後に,文字単位の固有表現抽出を行う2段階の抽出手法を提案する.続いて,従来の固有表現抽出で幅広く利用されてきた,人手で作成された固有名詞辞書やシソーラスの代わりに,複数の固有表現抽出器でラベルなしデータを解析した結果から各単語がなりうる固有表現クラスや各単語と共起する固有表現クラスなどを獲得し,固有表現抽出の手がかりとして利用する方法を提案する.本手法を,IREXの固有表現抽出タスクにおいて評価を行った.その結果,単語単位と文字単位の抽出の組合せおよび,ラベルなしデータの利用が,日本語固有表現抽出の精度改善につながることが示せた.
- 一般社団法人情報処理学会の論文
- 2008-10-15
著者
関連論文
- 大規模自然言語処理学習データのための複数弱仮説を生成する弱学習器を用いる AdaBoost 手法
- 数値属性からの例外ルール発見
- 平均的解析の拡張
- 5J-1 最小近傍法の平均的挙動の解明
- 意外性の高いルールの発見のための高速なアルゴリズム
- 重複概念の獲得が可能なクラスタリングアルゴリズムについて
- 訓練事例をガイドとする分類規則の学習
- 近傍に基づく類似事例検索の理論的解析
- 重複概念の獲得が可能なクラスタリングの一提案
- クラスタリングを用いたベイズ分類器の拡張
- K-最小近傍法におけるノイズの影響
- 企業内情報検索の高度化手法の提案と評価
- 第15回人工知能国際会議報告
- Boostingに基づく規則学習における部分候補を用いた高速化手法
- ラベルなしデータを用いた素性増強による日本語固有表現抽出方法
- Stackingの効率的な学習方法と日本語固有表現抽出での評価(抽出(1))
- Stackingの効率的な学習方法と日本語固有表現抽出での評価(抽出(1))
- カスタマーセンター支援システム
- リアルタイムSFAソリューション (特集 ユビキタス) -- (ユビキタスを支える技術)
- D_045 大規模文字列ソートのための適応的なデータ分割アルゴリズム(D分野:データベース)
- 信頼性(7)類似事例検索によるトラブル解決支援システム
- 事例の相対距離による類似度学習とその検索誤り率について
- ノイズを考慮した最小近傍法の理論的解析
- 距離情報による類似度関数の重み学習
- Boostingに基づく系列ラベリングにおける効率的規則表現方法による高速化
- 大規模空間データからの最適領域集合の効率的な発見方法
- Kura:統一的かつ宣言的記述法に基づく言い換え知識の開発環境
- Twitterからの犯罪情報抽出の可能性調査
- 類似事例検索システム : 通信ソフト故障診断問題への適用
- k-最小近傍法の平均的解析
- 最近隣法の正答率に対する理論的解析
- 重み付き最近隣法における重み学習について
- 定性的距離を用いた類似度関数の重み付けの学習
- 3.大規模半構造データからの高速な知識発見システム : 効率良い木構造バターンの発見と照合(広がる列挙の技術-列挙による問題解決アプローチ-)
- 大規模半構造データからの高速な知識発見システム : 効率良い木構造パターンの発見と照合