N-gram記号連鎖確率の統計的性質
スポンサーリンク
概要
- 論文の詳細を見る
N-gramは、記号n個の連鎖共起に基づく、簡単な確率的記号連鎖(言語)モデルである。特に、過去n-1個の記号がわかっているとき、次に記号w'が出現する条件つき確率P(W,|W^<t-1>_<t-n+1>) where (W^<t-1>_<t-n+1>=W_<t-n+1>,W_<t-n>,…,W_<t-1> (1)をn-gram確率と呼ぶ。特にn=1,2,3に対して、それぞれunigram, bigram, trigram確率という呼称が用いられる。N-gram確率は、コーパス(事例集)中の記号のn個連鎖及びn-1個連鎖を数え上げることによって簡単に求めることができる。P(W_t|W^<t-1>_<t-n+1>)≅<C(W^t_<t-n+1>)>/<C(W^<t-1>_<t-n+1>)> (2) where C(W^t_<t-n+1>):occurrence count of n-symbol sequence W^t_<t-n+1> in a corpus C(W^<t-1>_<t-n+1>):occurrence count of (n-1)-symbol sequence W^<t-1>_<t-n+1> in a corpus (1)式の条件つき確率の種類は、記号数をnとするときM^nである。例えば5000単語の3-gramに対して1.25 x 10^<11>であり、よほど巨大なコーパスを用いても、精度の高い確率推定を行うことは難しい。ゆえに、n-gram記号連鎖モデルにおいては、上手に確率の平滑化を行うことが重要な技術となる。本報告では、コーパス中の音素連鎖に関し、n-gram確率の平均値や分散を相互に比較し、どのような平滑化に妥当性があるのか検討する。またKatzのback-off平滑と深く関わるTuringの推定分布を実際に観察する。
- 社団法人電子情報通信学会の論文
- 1996-03-11
著者
関連論文
- テキスト選択に基づくタスク依存言語モデル構築の検討
- 音声対話によるテキスト内容の伝達方法
- 大規模データベースを用いたタスク依存言語モデル構築の検討
- ICSLP-98 会議報告
- システム発話のnon-verbal情報がユーザーの対話行動へ与える影響
- 韻律情報に着目した相互理解発話モデル
- 非言語的現象の分析と対話処理 : 電子メール討論(音声対話システムの実力と課題)
- 文型と音調によるユーザ発話行為理解
- 逐次的音声認識・理解のためのISTARアーキテクチャ
- 文型と音調によるユーザの発話意図の推定
- TV番組の録画予約を受け付ける実時間音声対話システム
- 多重文脈を用いた逐次的な発話理解
- 細かな発話単位の処理に基づく対話システム
- 話しことば対話によるテキスト内容の伝達
- 話しことば対話によるテキスト内容の伝達
- 複数の対話ドメインにおける協調的対話原則の分析
- 音声対話システムNoddy : ユーザ発話途中でのうなずき・相槌生成
- わかってうなずくコンピュータの試作
- わかってうなずくコンピュータの試作
- わかってうなずくコンピュータの試作
- 音声ストリーム分離法の提案と複数音声の同時認識の予備実験
- 調波構造分離と子音補完による音声ストリーム分離
- 音響ストリーム分離の音声認識からの評価
- 音響ストリーム分離の音声認識からの評価
- カクテルパーティ効果実現のための音響ストリーム分離の検討 : II.残差駆動型アーキテクチャの提案とモノラル音への適用
- カクテルパーティ効果実現のための音響ストリーム分離の検討 : I.音環境理解によるモデル化
- 音環境理解のためのマルチエージェントによる調波構造ストリームの分離
- マルチエージェントシステムによる音響ストリーム分離 : ストリーム分離の排他性の向上
- マルチエージェントシステムによる音響ストリーム分離のダイナミクス
- 創発的計算モデルによる音環境理解 : 音響ストリーム分離エージェントの構築と評価
- 音声認識における仮名・漢字文字連鎖確率に基づく統計的言語モデルの利用
- 対話調整の表出における韻律的特徴の分析
- 対話調整の表出における韻律的特徴の分析
- 音声の音響的特性を用いた顔方向認識
- 音声の音響的特性を用いた顔方向認識
- 音声対話の発話交代に関わる現象の分析
- 共同作業タスクにおける対話の分析
- 二項事後分布に基づくN-gram言語モデルのBack-off平滑化
- 二項事後分布に基づくN-gram言語モデルのBack-off平滑化
- 共同作業タスクにおける対話の分析
- 談話標識語の音韻的研究(II)
- 談話標識語の音韻的研究(II)
- 談話標識語の音韻的研究
- 談話標識語の音韻的研究
- 音声理解システムJUNOにおける対話マスコット
- 残差駆動型アーキテクチャの提案と音響ストリーム分離への応用
- BPD Back-off法における継承係数の決定法
- N-gram記号連鎖確率の統計的性質
- 音声認識のための新しい言語処理
- 二項事後分布に基づくN-gram言語モデルのBack-off平滑化
- 確率文法と話題マルコフモデルに基づく音声認識のための話題制御
- 確率文法と話題マルコフモデルに基づく音声認識のための話題制御
- 連接共起に注目した単語のクラスタリング
- 共同作業タスクにおける対話の分析
- 二項事後分布に基づくn-gram言語モデルのback-off平滑化
- 統計的言語モデルのための単語分類法と評価法の検討
- 音声対話を通した共同作業タスクの検討
- 音声対話を通した共同作業タスクの検討
- 調波構造と方向同定に基づく音響ストリーム分離
- 不特定話者音声認識のための予測子コードブックの構成法