単語リストと生コーパスによる確率的言語モデルの分野適応(言語の統計モデル)
スポンサーリンク
概要
- 論文の詳細を見る
本論文では、単語リストと生コーパスが利用可能な状況における確率的言語モデルの分野適応について述べる。このような状況の下での一般的な対処は、単語リストを語彙に加えた自動単語分割システムによる生コーパスの自動単語分割の出力文を可能な限り人手で修正し、パラメータ推定に利用することである。しかしながら、文単位での修正では、正確な単語分割が容易でない箇所が含まれることになり、作業効率の著しい低下を招く。加えて、文単位で順に修正していくことが、限られた作業量を割り当てる最良の方法であるかということも疑問である。本論文では、コーパスの修正を単語単位とし、修正箇所を単語リストで与えられる適応分野に特有の単語に集中することを提案する。これにより、上述の困難を回避し、適応分野に特有の単語の統計的な振る舞いを捕捉するという、適応分野のコーパスを利用する本来の目的にのみコーパス修正の作業を集中することが可能となる。実験では、自動単語分割の結果の人手による修正の程度や方法を複数用意し、その結果得られるコーパスから推定された確率的言語モデルの予測力やそれに基づく仮名漢字変換の精度を計算した。この結果、適応分野に特有の語彙の出現箇所に修正のコストを集中することにより、少ない作業量で効率良く確率的言語モデルを分野適応できることが分かった。
- 2005-07-16
著者
-
森 信介
日本アイ・ビー・エム東京基礎研究所
-
森 信介
日本IBM東京基礎研究所
-
森 信介
日本アイ・ビー・エム株式会社東京基礎研究所
-
森 信介
日本アイ・ビー・エム株式会社東京基礎研究所:(現)京都大学学術情報メディアセンター
関連論文
- 単語クラスタリングによる確率的言語モデルの分野適応
- 形態素係り受けモデルによる構文解析
- 2000-SLP-32-3 構文構造を反映した確率的言語モデル
- 放送大学コーパスを用いた自由発話の大語彙連続音声認識
- 最大エントロピー法による単語境界確率の推定
- 文字クラスモデルによる日本語単語分割
- 文字クラスモデルに基づく日本語単語分割
- 確率的モデルによる仮名漢字変換
- nグラム統計によるコーパスからの未知語抽出
- 日本語生コーパスから自動獲得した未知語と言語モデルによる大語彙連続音声認識([特別セッション]音声言語獲得・学習技術(2), 未知語処理)
- 確率的モデルによる仮名漢字変換
- 確率的モデルによる仮名漢字変換
- 予測単位の変更によるn-gramモデルの改善
- 予測単位の変更によるn-gramモデルの改善
- 予測単位の変更によるn-gramモデルの改善
- 日本語の情報量の上限の推定
- 形態素クラスタリングによる形態素解析精度の向上
- タグ付きコーパスからの統語規則の獲得
- 講義関連コーパスを利用した音声認識システムの自動適応(音声,聴覚)
- N-gramモデルを用いた音声合成のための読みおよびアクセントの同時推定(音声言語,情報処理技術のフロンティア)
- 確率モデルを用いた読み及びアクセント推定(言語解析, 対話)
- 音声認識・理解のための統計的言語処理
- nグラム統計によるコーパスからの未知語抽出
- nグラム統計によるコーパスからの未知語抽出
- タグなしコーパスによる形態素解析と仮名漢字変換の精度向上
- タグなしコーパスによる形態素解析と仮名漢字変換の精度向上
- 単語リストと生コーパスによる確率的言語モデルの分野適応(言語の統計モデル)
- 単語リストと生コーパスによる確率的言語モデルの分野適応(言語の統計モデル)
- 確率的単語分割コーパスからの単語N-gram確率の計算(音声言語)
- 生コーパスからの単語N-gram確率の推定(仮名漢字変換・形態素構文解析)
- 大規模日本語テキストのnグラム統計の作り方と語句の自動抽出
- 語彙化マルコフモデルによる英語品詞タグ付け
- 形態素bi-gramと品詞bi-gramの重ね合わせによる形態素解析
- 統計によるタグ付きコーパスからの統語規則の獲得
- 無限語彙の仮名漢字変換(自然言語)
- クラスに基づく可変長記憶マルコフモデル
- 自然言語処理 : 基礎と応用, (社)電子情報通信学会(編), 田中穂積(監修), "自然言語処理 : 基礎と応用", (社)電子情報通信学会(1999-03), A5判, 定価(本体5,400円+税)
- 単語リストと生コーパスによる確率的言語モデルの分野適応
- 無限語彙の仮名漢字変換(単語,文法)
- 係り受けを用いた確率的言語モデル