確率的タグ付与コーパスからの言語モデル構築
スポンサーリンク
概要
- 論文の詳細を見る
確率的言語モデルは,仮名漢字変換や音声認識などに広く用いられている.パラメータは,コーパスの既存のツールによる処理結果から推定される.精度の高い読み推定ツールは存在しないため,結果として,言語モデルの単位を単語(と品詞の組)とし,仮名漢字モデルを比較的小さい読み付与済みコーパスから推定したり,単語の発音の確率を推定せずに一定値としている.これは,単語の読みの確率を文脈と独立であると仮定していることになり,この仮定に起因する精度低下がある.このような問題を解決するために,本論文では,まず,仮名漢字変換において,単語と読みの組を単位とする言語モデルを利用することを提案する.単語と読みの組を単位とする言語モデルのパラメータは,自動単語分割および自動読み推定の結果から推定される.この処理過程で発生する誤りの問題を回避するために,本論文では,確率的タグ付与を提案する.これらの提案を採用するか否かに応じて複数の仮名漢字変換器を構築し,テストコーパスにおける変換精度を比較した結果,単語と読みの組を言語モデルの単位とし,そのパラメータを確率的に単語分割し,さらに確率的読みを付与したコーパスから推定することで最も高い変換精度となることが分かった.したがって,本論文で提案する単語と読みの組を単位とする言語モデルと,確率的タグ付与コーパスの概念は有用であると結論できる.
- 言語処理学会の論文
言語処理学会 | 論文
- 複合語の分野連想語の効率的決定法
- クラス指向事例収集手法による言い換えコーパスの構築
- 動詞項構造辞書への大規模用例付与
- 言い換え技術に関する研究動向
- Morpho-Syntactic Rules for Detecting Japanese Term Variation: Establishment and Evaluation