HMM とテキスト分類器による対話の段落分割
スポンサーリンク
概要
- 論文の詳細を見る
テキストを段落に分割する問題に対して,本論文ではシナリオに基づいた分割を行う手法を提案する.すなわち分割対象とするテキストは,あるシナリオに基づいたテキストであると仮定し,テキスト内の段落はシナリオに記述された段落のいずれかに分類されるもとのする.本手法では,正確に段落分割された学習データから,1 つの文が属する段落を推定するナイーブベイズモデルおよび段落番号の列を出力とする HMM の 2 つを用いて学習データをモデル化する.分割対象テキストは,1 文ごとにナイーブベイズで段落番号を推定され,その段落番号の列に対して HMM の最適な状態遷移系列を求めることにより段落分割を行う.従来,HMM による段落分割では,単語を出力記号とする HMM を構成することでテキストのモデル化を行うのが一般的であるが,本手法では,段落番号を出力記号とする HMM を利用する点に特徴がある.これにより,特に対話文などの間投詞が多く特徴的な単語の少ないテキストデータに対しても高い分割性能を得ることができる.評価実験として,実際の対話,およびウェブのニュース記事に対して段落分割を行い,本手法の有効性を確かめた.
- 2009-03-27
著者
-
藤本 浩司
東京大学
-
但馬 康宏
東京農工大学共生科学技術研究院先端情報科学部門
-
小谷 善行
東京農工大学共生科学技術研究院先端情報科学部門
-
藤本 浩司
テンソル・コンサルティング株式会社
-
北出 大蔵
トランス・コスモス株式会社
-
中野 未知子
トランス・コスモス株式会社
-
中林 智
株式会社金融エンジニアリング・グループ
-
北出 大蔵
トランスコスモス(株)
-
中野 未知子
トランスコスモス(株)
-
小谷 善行
東京農工大学大学院工学府
-
但馬 康宏
東京農工大学大学院工学府
-
但馬 康宏
電気通信大学電気通信学研究科電子情報学専攻
-
小谷 善行
東京農工大
-
北出 大蔵
トランスコスモス株式会社
-
藤本 浩司
東京農工大学大学院工学府
-
但馬 康宏
東京農工大学 工学部 情報工学科
関連論文
- 工業用純アルミニウムにおける内部摩擦に及ぼす結晶組織の影響(M&P2009機械材料・材料加工部門技術講演会)
- プラズマ溶射によって成膜された遮熱コーティング材の非弾性変形(ガスタービン用遮熱/耐環境コーティング技術)
- 系列パターンを利用した決定木による自然言語における選択ルール獲得(学習・系列解析・構文解析)
- SVMを用いたリズム感のモデル化とドラムパターンの自動生成(音楽生成)
- パケットの直接的な読み書きによるインターネットプロトコル学習システム( 遠隔教育/一般)
- 枝分かれ同時確率モデルを用いた「AのB」の意味分類(語彙・意味)
- すご@ぷろ : 双六をモチーフとしたビジュアルプログラミング言語
- 特許明細書における多項請求項の自動構造化に関する研究(解析,分析)
- 構造解析を利用した機械学習による演奏表情の解析と付与(表情付け・分析)
- 202 純鉄における内部摩擦に及ぼす結晶粒径の影響(機械材料・材料加工(1))