正規-崩れ表記のアライメントに基づく表記崩れパタンの抽出と形態素解析への導入
スポンサーリンク
概要
- 論文の詳細を見る
マイクロブログ上のテキストでは口語調や小文字化,長音化,ひらがな化,カタカナ化など新聞等で用いられる標準的な表記から逸脱した崩れた表記が多く出現し形態素解析誤りを起こす一因となっている.本研究では,ソーシャルメディア上のテキストから抽出した崩れ表記に対し正規表記を付与した正解データを用いて,文字列アライメントを求め文字列レベルの表記の崩れパタンを自動抽出する.また得られたパタンに基づき,入力文の崩れ表記から正規の表記を展開し形態素ラティスを拡張することで,従来法に比べ多様な崩れパタンの解析を可能とした.実験では,対象とした崩れ表記箇所の解析結果に関して,従来法に比べ約 30% の解析誤りを改善することができた.
- 2013-11-07
著者
-
松尾 義博
Ntt サイバースペース研究所 日本電信電話株式会社
-
松尾 義博
NTTメディアインテリジェンス研究所
-
斉藤 いつみ
NTTメディアインテリジェンス研究所
-
貞光 九月
NTTメディアインテリジェンス研究所
-
浅野 久子
NTTメディアインテリジェンス研究所
関連論文
- 日英間のシソーラス対応と構造比較
- 電子化辞書:日本語語彙大系とその適用
- 重要語句抽出による新聞記事自動要約
- 重要語句抽出による新聞記事自動要約
- 1D-1 新聞記事の自動要約によるニュース速報配信
- カタカナ表記述語の日英機械翻訳
- 英和辞書からの日英翻訳ルールの自動獲得
- 日英翻訳のための日本語解析技術 (特集論文 日英機械翻訳技術)
- 発音情報を用いた訳語対の自動抽出
- 長い系列データに対するMarkov Logic Networkの適用
- 長い系列データに対するMarkov Logic Networkの適用
- 語彙と文脈情報を用いた反義の詳細クラス分類
- 正規-崩れ表記のアライメントに基づく表記崩れパタンの抽出と形態素解析への導入