E-063 Context Dependent Class Language Model Based on LSA

概要

論文の詳細を見る
We propose an alternative method in language model, called context dependent class language model (CDC), to solve data sparseness problem which is suffered by n-gram language model. The proposing method makes usage of the successful ideas of latent semantic analysis (LSA) in projecting discrete words into continuous vector space. We perform classification on the resulting space and then for- mulate the CDC. Experimental results on the Wall Street Journal (WSJ) corpus show that the interpolation of the proposed method and a backoff trigram model, achieves better performance than state-of-the-art trigram language model as a baseline.
FIT(電子情報通信学会・情報処理学会)推進委員会の論文
2007-08-22

著者

土屋雅稔
豊橋技術科学大学情報メディア基盤センター
Naptali Welly
豊橋科技大
土屋雅稔
豊橋科技大
中川聖一
豊橋科技大

関連論文

中間言語を用いたインドネシア語-日本語対訳辞書の拡充
非頻出語に対して頑健な日本語固有表現の抽出(語彙・固有表現・同義語)
代表・派生関係を利用した日本語機能表現の解析
音声に含まれるプライバシ情報の保護(センシングウェブ)
フィラー予測モデルに基づく話し言葉言語モデルの構築
日本語講義音声コンテンツコーパスの作成と分析
音声認識用言語モデルにおけるポーズ情報の扱いに関する検討
認証基盤と連携した学内メールホスティング環境の構築
非頻出語に対して頑健な日本語固有表現の抽出(語彙・固有表現・同義語)
日本語講義音声コンテンツコーパスの構築と講義音声認識手法の検討
フィラー予測モデルを用いた話し言葉言語モデルの音声認識による評価
日本語機能表現の自動検出と統計的係り受け解析への応用
E-063 Context Dependent Class Language Model Based on LSA
フィラーの書き起こしのないコーパスからのフィラー付き言語モデルの構築(話し言葉処理)
機能表現を考慮した統計的日本語係り受け解析(解析・対話)
機能表現を考慮した統計的日本語係り受け解析
機械学習を用いた日本語機能表現のチャンキング
フィラー予測モデルに基づくフィラー付き言語モデルの構築
講義コンテンツの収集・分析および講義音声の認識手法に関する検討
日本語複合辞用例データベースの作成と分析(自然言語,情報処理技術のフロンティア)
機械学習を用いた日本語複合辞のチャンキング(抽出, 言い換え)
日本語文の規格化
辞書定義文の圧縮による定義表現パターンの発見
認証基盤と連携したメールホスティング環境の構築
ポーズを考慮した話し言葉言語モデルの構築
Shibboleth・CAS連携による東海アカデミッククラウド認証基盤の構築(学生セッション,一般)
Shibboleth・CAS連携による東海アカデミッククラウド認証基盤の構築
HPCクラスタシステム上で動作する仮想マシンを用いたHadoopクラスタの構築

E-063 Context Dependent Class Language Model Based on LSA

スポンサーリンク

概要

著者

関連論文

スポンサーリンク