メタルールと決定木学習を用いた日本語固有表現抽出(<特集>システムLSIの設計技術と設計自動化)
スポンサーリンク
概要
- 論文の詳細を見る
固有表現抽出は,地名や人名などの固有表現や数値表現を文書から見つけ出し分類する処理であり,情報抽出や質問応答の重要な要素技術である.その実現には,人手で辞書やルールを作成する方法と最大エントロピー法などの統計的手法がよく用いられる.人手による方法は人間の背景知識を利用できるが,システムを熟知した人でなければ改良・保守が難しい.統計的手法は十分な量の訓練データがあれば簡単に実現できるが,多くの場合,学習の結果が明確な論理的判断の形をとらず,膨大な数の数値パラメタの形をとるので,出力の間違いの原因を追求することが困難である.本論文では,簡単なメタルールによって,訓練データからルールを自動生成し,決定木学習で改良する手法を提案する.本手法によれば,精度良いルールセットが簡単に自動生成でき,その出力から間違いの原因を追求することも比較的簡単である.これまでにも決定木学習を用いたシステムは提案されているが,決定木を確率的に解釈するので,誤りの原因の追求は難しい.また,これまでの結果では,最大エントロピー法の方が好成績である.IREX固有表現抽出タスクの公開データを用いた実験によると,本手法の成績は最大エントロピー法と同程度であり,訓練データを増やした実験ではIREXで1位の人手によるシステムを超える成績を出すことができた.
- 一般社団法人情報処理学会の論文
- 2002-05-15
著者
-
磯崎 秀樹
日本電信電話(株)NTTコミュニケーション科学基礎研究所
-
磯崎 秀樹
日本電信電話株式会社 Nttコミュニケーション科学基礎研究所
-
磯崎 秀樹
日本電信電話株式会社 Ntt コミュニケーション科学基礎研究所
関連論文
- 最適化問題としての文書要約
- モデル検査に基づく知識・信念の推定(「定理証明, 推論関係の新技術」)
- 抜粋による複数文書要約を評価するためのコーパスと評価指標
- 生成・識別モデルの統合に基づく半教師あり学習法とその多重分類への応用
- F値最大化学習に基づく文書の多重ラベリング(機械学習)
- 高次元特徴空間に適した半教師あり条件付確率場の検証(機械学習)
- 識別学習による組合せ最適化問題としての文短縮手法
- 単一言語コーパスにおける文の自動対応付け手法(自然言語)
- SVMを用いた学習型質問応答システムSAIQA-II(自然言語)
- 機械学習のための組み合わせ素性の選択基準について(分類、クラスタリング,機械学習)
- 言語パターンに着目した複数文書要約(要約)
- 機械学習のための組み合わせ素性の選択基準について(分類、クラスタリング, 機械学習)(言語理解とコミュニケーション)
- 言語パターンに着目した複数文書要約(言語理解とコミュニケーション)
- 機械学習のための組み合わせ素性の選択基準について
- 言語パターンに着目した複数文書要約
- 素性選択機能をもったString Kernelの提案(パタン発見)(セマンティックウェブと自然言語処理その他一般)
- 素性選択機能をもった String Kernel の提案
- SAIQA : 大量文書に基づく質問応答システム
- SAIQA : 大量文書に基づく質問応答システム
- 聞き役対話システムの構築を目的とした聞き役対話の分析
- 構文情報に依存しない文短縮手法
- 生成・識別モデルの統合に基づく半教師あり学習法とその多重分類への応用
- 投票型回帰モデルによる要約の自動評価法
- 辞書式順序を持つペナルティによるゼロ代名詞解消(自然言語)
- 拡張ストリングカーネルを用いた要約システムの自動評価法(自然言語,情報処理技術のフロンティア)
- 最大マージン原理に基づく多重ラベリング学習(自然言語処理)
- 文書要約の自動評価手法の提案と評価(セグメンテーション・要約)
- 優先度学習を用いた自然言語処理(解析)
- 生物医学文献からの遺伝子機能フレーズの抽出(抽出,マイニング)
- 自然言語処理のためのSVM高速化
- 自然言語処理のためのSVM高速化
- 音声インタラクティブODQAの構築とその評価
- 質問応答システムの比較と評価
- 固有表現抽出のためのSVMの高速化
- 質問応答システム:SAIQA--何でも答える物知り博士 (特集論文1 高度検索技術)
- 質問に適応した文書要約手法とその評価
- 世界図書館を飲み込む次世代ヒューマノイド--知識処理と言語処理の新しい展開 (特集論文1 人にやさしい対話型コンピュータ)
- AAAI-99参加報告
- 生物医学文献からの遺伝子機能フレーズの抽出(抽出, マイニング)(言語理解とコミュニケーション)
- 音声駆動型QAシステム実現のための言語モデルと対話戦略の検討 (テーマ:一般)
- 4. 論理の逆計算 : 計算機科学の立場から( 逆計算: 計算の理論における逆問題)
- 生物医学文献からの遺伝子機能フレーズの抽出
- セグメント単位の評価指標最大化に基づく条件付確率場の学習
- Support Vector Machineを用いた重要文抽出法(自然言語)
- 機械学習による複数文書からの重要文抽出
- LE-11 機械学習を用いた複数文書要約(E. 自然言語・文書)
- SVMに基づく固有表現抽出の高速化
- メタルールと決定木学習を用いた日本語固有表現抽出(システムLSIの設計技術と設計自動化)
- 固有表現抽出のための可読性の高い規則の自動生成
- 並行実行される固有表現抽出規則の一括生成
- 辞書式優先順位に基づく日本語固有表現抽出
- マルチエージェント環境で他者の信念の変遷を推定する前進的アルゴリズム
- セグメント単位の評価指標最大化に基づく条件付確率場の学習(自然言語処理)
- 大規模データを用いた半教師あり学習による高精度係り受け解析モデルの学習
- マルチエージェント環境における遡行的信念推定アルゴリズム
- トランザクション論理におけるプログラム変換