確率的タグ付与コーパスからの言語モデル構築
スポンサーリンク
概要
- 論文の詳細を見る
確率的言語モデルは、仮名漢字変換や音声認識などに広く用いられている。パラメータは、コーパスの既存のツールによる処理結果から推定される。精度の高い読み推定ツールは存在しないため、結果として、言語モデルの単位を単語 (と品詞の組) とし、仮名漢字モデルを比較的小さい読み付与済みコーパスから推定したり、単語の発音の確率を推定せずに一定値としている。これは、単語の読みの確率を文脈と独立であると仮定していることになり、この仮定に起因する精度低下がある。このような問題を解決するために、本論文では、まず、仮名漢字変換において、単語と読みの組を単位とする言語モデルを利用することを提案する。単語と読みの組を単位とする言語モデルのパラメータは、自動単語分割および自動読み推定の結果から推定される。この処理過程で発生する誤りの問題を回避するために、本論文では、確率的タグ付与を提案する。これらの提案を採用するか否かに応じて複数の仮名漢字変換器を構築し、テストコーパスにおける変換精度を比較した結果、単語と読みの組を言語モデルの単位とし、そのパラメータを確率的に単語分割し、さらに確率的読みを付与したコーパスから推定することで最も高い変換精度となることが分かった。したがって、本論文で提案する単語と読みの組を単位とする言語モデルと、確率的タグ付与コーパスの概念は有用であると結論できる。
- 2010-05-20
著者
-
Neubig Graham
京都大学情報学研究科
-
森 信介
京都大学情報学研究科
-
Neubig Graham
Kyoto University School Of Informatics
-
笹田 鉄郎
京都大学情報学研究科
-
笹田 鉄郎
京都大学 情報学研究科
関連論文
- 点予測と系列予測の2段階化による品詞推定の精度向上
- 点予測と系列予測の2段階化による品詞推定の精度向上
- 文脈を考慮した確率的モデルによる話し言葉の整形
- 重み付き有限状態トランスデューサーと対数線形モデルを用いた話し言葉の整形
- 国会音声認識システムの音響・言語モデルの半自動更新
- 点予測による形態素解析
- 文脈を考慮した確率的モデルによる話し言葉の整形(音声検索・要約,第11回音声言語シンポジウム)
- ベイズ推論を用いた連続音声からの言語モデル学習
- ウイグル語の形態素に基づく言語モデルと音声認識システム
- 確率的タグ付与コーパスからの言語モデル構築
- 確率的タグ付与コーパスからの言語モデル構築
- 講義音声認識に基づくノートテイクシステム(福祉と音声処理,一般)
- 文脈を考慮した確率的モデルによる話し言葉の整形 (音声)
- 確率的タグ付与コーパスからの言語モデル構築
- 大学講義のノートテイク支援のための音声認識用言語モデルの適応(言語モデル)
- 自動獲得した未知語の読み・文脈情報による仮名漢字変換
- 述語項の類似度に基づく情報推薦を行う音声対話システム
- 部分的アノテーションから学習可能な係り受け解析器
- 部分的アノテーションから学習可能な係り受け解析器
- テキストと音声を用いた単語と読みの自動獲得
- テキストと音声を用いた単語と読みの自動獲得(単語辞書・発音モデル)
- 確率的タグ付与コーパスからの言語モデル構築
- 点予測による形態素解析
- 確率的タグ付与コーパスからの言語モデル構築
- 述語項の類似度に基づく情報抽出・推薦を行う音声対話システム
- 点予測による形態素解析
- 素性頻度ファイルと部分的アノテーションコーパスからの単語分割器の学習