分野の階層構造を利用したコーパスの誤り修正と文書分類への適用(自然言語処理)
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,人手により複数の分野名が付与された文書における分野名誤りのうち,文書分類の精度に悪影響を与えるものを自動的に検出し,修正する手法を提案する.我々は,誤り検出と修正の手掛りとして三つの点に注目する.1点目は分類に悪影響を与える事例を抽出するために機械学習Support Vector Machines(SVMs)で得られるサポートベクトルと機械学習Naive Bayes(NB)を利用する点である.2点目は誤り事例を検出するために損失関数を利用する点である.3点目は,過剰な修正を抑えるため,分野名をノードとする階層構造を利用する点である.Reuters1996のコーパスを用いて実験を行った結果,誤り検出と修正の精度はそれぞれ0.8391,0.767であった.更に,修正結果を文書分類へ適用した結果,分類精度が0.5〜1.7%向上することが分かり,誤り修正の効果が現れていることが確認できた.
- 社団法人電子情報通信学会の論文
- 2006-03-01
著者
関連論文
- 単語の類似尺度に基づくシソーラス辞書への用例付与(学生セッション II)
- 音声対話システムにおけるタッチ情報を利用した現場指示詞の処理
- WordNetの同義語クラスとその上位関係を利用した文書の自動分類
- Web上から取得した共起頻度と音象徴によるオノマトペの自動分類(自然言語処理)
- マルチモーダルユーザインターフェースを備えた高次コミュニケーション空間の構築に関する研究開発通信放送機構委託研究(1997-2001)
- 単語の類似尺度に基づくシソーラス辞書への用例付与(学生セッション II)
- コーパスに基づく動詞の多義解消
- コーパスに基づく動詞の多義解消
- 超高速ATM LANの構築法と次世代ユーザーインタフェースに関する研究
- 階層構造におけるカテゴリの統合と類似文書抽出への適用(学生セッション I)
- 階層構造におけるカテゴリの統合と類似文書抽出への適用(学生セッション I)
- マルチラベルの分野名タグに対する事例間類似度に基づいた誤り修正(自然言語処理)
- 分野の階層構造を利用したコーパスの誤り修正と文書分類への適用(自然言語処理)
- TD-2-1 知的情報検索のための大規模言語データの利用(TD-2. WEB知的処理の基礎)
- 話題の推移に基づく続報記事の自動抽出(自然言語)
- 語義の曖昧性解消のための最適な属性選択
- 語義の曖昧性解消のための最適な属性選択
- 語の重み付け学習を用いた文書の自動分類
- 類推に基づく語の重み付け学習を用いた動詞の多義解消
- 音声とポインティングジェスチャを利用した指示物同定
- 文脈依存の度合を考慮した重要パラグラフの抽出
- ニュース文の話題セグメンテーション
- 3語の同時出現頻度を利用した前置詞句の係り先の曖昧性解消
- 辞書の語義文を用いた文書の自動分類
- ニュース文を対象とした話題の認識
- 日本語の述部階層構造に基づく形態論的な文法規則の記述法
- ニュース文を対象とした話題毎のセグメンテーション
- 3語の同時出現頻度を利用した前置詞句の係り先の曖昧性解消
- 係り受けの強度に基づく依存文法 : 制限依存文法
- 局所化した単一化文法とその表現
- 制限依存文法とその表現
- 音声対話装置に対するユーザの否定発話の抽出と処理方法(音声言語)
- ビデオ装置を例とした家電品の音声対話機能について(マルチモーダル)(「インタラクション:理論,技術,応用,評価」)
- F-12 サンプリング周波数に依存しない話者方向識別(音声・音声言語情報処理,F.音声・音楽)
- E-3 要約文生成のための集合名詞の要素の抽出(要約・情報検索,E.自然言語・文書)
- 格構造を利用した対話中の否定対象の推定
- 対話文中の否定表現の分析とその理解方法
- テレビ制御用音声対話システム
- 対話文に現われる否定表現の分類とその理解
- 不特定話者連続音声認識のための規則による音素識別
- 韻律情報を利用した連続音声中の隣接句間の修飾関係有無の判定
- スケッチ画制御用音声対話システムにおける文脈情報の利用
- 音声認識のための連想辞書作成の一手法
- 音声対話システムにおける代名詞処理の試み
- 利用環境を考慮した音声対話システムの構築
- 意味属性を利用した音声認識のための連想情報について
- 話し言葉中の助詞の推定
- スケッチ画制御用音声対話システムの作成
- 対話音声中の助詞の補完とその評価
- 複数句を照合単位とした連続音声認識
- 韻律情報を利用した対話音声中の隣接句間の修飾関係の抽出
- 日本語連続音声認識のための韻律情報を利用した句境界の抽出
- 連続音声中の音素識別のための線形判別関数の話者適応
- 少数の正例とラベルなし事例による文書の自動分類(自然言語処理)
- Web掲示板における皮肉の分類および自動検出