ニュース音声認識のための言語モデルと音響モデルの検討
スポンサーリンク
概要
- 論文の詳細を見る
本稿では, 放送ニュース音声認識における言語モデルおよび音響モデルについて検討した結果について報告する.我々はこれまで, 単語(形態素)n-gram言語モデルと環境依存音素HMMを用いた大語彙連続音声認識システムによる放送ニュース音声の認識について検討を進めてきた.これまでの言語モデルでは, 単語の読みが異なっていても表記や品詞が同じであれば同じエントリとして扱ってきたが, 今回, 表記が同じであっても読みの異なる単語は異なるエントリとして扱う読み依存言語モデルを構築した.放送ニュースでは, 同じ話者が数文続けて発声することが多いため, 入力音声の話者を識別しながら音響モデルを適応していくオンライン即時・逐次型話者適応について検討した.読み依存言語モデルを用いることにより単語誤り率が約10%改善され, オンライン話者適応を行うことにより単語誤り率が約15%改善されることが確認された.さらに, 従来の音声認識で用いられている音響パラメータ系列に対して単語系列の事後確率を最大化する規準に対して, 音響パラメータ系列に対して発声内容の事後確率を最大化する意図駆動音声認識を提案し, N-best候補の再評価に適用することでその効果を確認した.
- 一般社団法人情報処理学会の論文
- 1998-12-10
著者
-
張 志鵬
NTTドコモマルチメディア研究所
-
古井 貞熙
東京工業大学大学院情報理工学研究科計算工学専攻
-
張 志鵬
東京工業大学大学院 情報理工学研究科 計算工学専攻
-
岩崎 淳
東京工業大学大学院情報理工学研究科
-
古井 貞熙
東工大
-
岩崎 淳
東大 大学院
-
大附 克年
早大・理工
-
大附 克年
NTTヒューマンインタフェース研究所
-
桜井 直之
東京工業大学大学院情報理工学研究科計算工学専攻
-
古井 貞熙
東京工業大学
-
大附 克年
Nttヒューマンインターフェース研究所
-
桜井 直之
東工大
関連論文
- 年齢推定のための音声特徴量および推定器の検討 (音声)
- 局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出 (医用画像)
- 音声認識実用化技術の展開(総合報告)
- SIFT混合ガウス分布と音響特徴を用いた映像からの高次特徴検出(テーマセッション関連,一般物体認識・画像特徴量)
- WFST音声認識デコーダにおけるon-the-fly合成の最適化処理(音声,聴覚)
- 携帯端末上でのプロキシ編集(映像理論・映像システム,画像処理・符号化及び一般)
- 頑健な区間検出とモデル適応に基づく雑音下音声認識(雑音下音声処理)(第6回音声言語シンポジウム)
- 区分線形変換による雑音適応法のための木構造クラスタリング法の検討
- 区分線形変換による雑音適応法における木構造クラスタリング法の検討
- 尤度最大化規準による雑音適応
- 雑音重畳音声に対する各種適応手法の検討
- 話者クラスタに基づく初期モデルを用いた話者適応
- F_0パターン生成モデルのための数量化I類の平均値置換による話者適応法の検討(感情音声,韻律,声質,音声生成・知覚,脳機能,一般)
- CHLAC特徴と隠れマルコフモデルを用いたGait認識(一般セッション2,複合現実感のためのパターン認識・理解)
- 統計的モデル選択によるシーン数の自動推定を用いた動画要約(一般セッション3,複合現実感のためのパターン認識・理解)
- 話者認識研究の現状と展望
- 音声認識を用いたマルチメディアコンテンツのインデクシング
- 話題構造抽出に基づく会議音声インデクシングシステム(音声,聴覚)
- HMM及びケプストラム係数特徴による筋電信号を用いた無発声音声認識
- HMM及びケプストラム係数特徴による筋電信号を用いた無発声音声認識(福祉と音声処理及び一般)(音声)
- HMM及びケプストラム係数特徴による筋電信号を用いた無発声音声認識(福祉と音声処理及び一般)
- 連続音声認識のためのネットワーク構造を用いた効率的探索手法
- 話し言葉音声の音響的・言語的特徴の分析
- 局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出(一般,First Person Visionのための認識・理解)
- 1 音声認識技術の実用化への取り組み(音声認識技術の実用化への取り組み)
- 音響モデル学習のための相対エントロピーを用いた学習文選択
- 年齢推定のための音声特徴量および推定器の検討(音声・言語・音響教育,一般)
- 音声・非音声の信頼度を利用した雑音に頑健な音声認識デコーダの検討(音声・言語・音響教育,一般)
- 音声の有無による違いを考慮した Home video 簡易編集
- 大規模映像資源のためのマルチモーダル高次特徴検出(画像・映像処理)
- マルチストリーム話者照合におけるブースティングに基づく重み最適化法の検討(ポスターセッション)(第6回音声言語シンポジウム)
- マルチストリーム話者照合におけるブースティングに基づく重み最適化法の検討(ポスターセッション)(第6回音声言語シンポジウム)
- マルチストリーム話者照合におけるブースティングに基づく重み最適化法の検討(ポスターセッション)(第6回音声言語シンポジウム)
- テキスト選択に基づくタスク依存言語モデル構築の検討
- 大規模データベースを用いたタスク依存言語モデル構築の検討
- CTI向け自由発話対応音声対話システムRexDialog
- 会議音声認識のためのスペクトル減算に基づくオンライン音源分離(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 関連語彙獲得に基づく認識辞書のオフライン教師なし適応(音声・音響処理)
- 局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出(一般,First Person Visionのための認識・理解)
- 局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出(一般,First Person Visionのための認識・理解)
- SIFT混合ガウス分布を用いた一般物体認識のためのマルチカーネル学習(テーマセッション,コンピュータビジョンとパターン認識のための機械学習と最適化,一般)
- SIFT混合ガウス分布を用いた一般物体認識のためのマルチカーネル学習(テーマセッション,コンピュータビジョンとパターン認識のための機械学習と最適化,一般)
- WFST駆動音声認識デコーダの最近の評価結果(デコーダ,第11回音声言語シンポジウム)
- WFST駆動音声認識デコーダの最近の評価結果(デコーダ,第11回音声言語シンポジウム)
- ニュース音声を対象とした連続音声認識に基づく話題抽出
- ニュース音声を対象とした大語彙連続音声認識と話題抽出
- テキストコーパスを用いた音声理解のための言語モデル自動獲得
- 単語trigramを用いた大語彙連続音声認識
- 統計的翻訳言語モデルを用いた音声理解
- 音声の有無による違いを考慮したHome video簡易編集
- 科学技術振興調整費開放的融合研究推進制度 : (小特集:) : 大規模コーパスに基づく『話し言葉工学』の構築
- 会議音声認識のためのスペクトル減算に基づくオンライン音源分離(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 会議音声認識のためのスペクトル減算に基づくオンライン音源分離(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- ニュース音声を対象とした言語モデルと話題抽出の検討
- ニュース音声認識のための言語モデルと音響モデルの検討
- ニュース音声認識のための言語モデルと音響モデルの検討
- ニュース音声認識のための言語モデルと音響モデルの検討
- バイト誤り保護機能を有するSEC-DED符号
- 音声認識のための複数の認識器を利用した能動学習(音響モデル,第11回音声言語シンポジウム)
- 音声認識のための複数の認識器を利用した能動学習
- 講義音声認識における講義スライド情報の利用(第8回音声言語シンポジウム)
- HMMによる規則音声合成の検討
- マルチモーダル音声認識におけるストリーム重み係数最適化の検討(ポスターセッション)(第5回音声言語シンポジウム)
- 横顔の動画像情報を用いたマルチモーダル音声認識(自然言語情報処理研究会と一部合同開催 : マルチモーダル・音声インタフェース関連)
- 実環境におけるマルチモーダル音声認識の評価
- ニュース音声認識システムの検討
- ニュース音声認識の話者適応法の検討
- ニュース音声認識における言語モデルの改良
- 周波数帯域ごとの重みつき尤度を用いた雑音に頑健な音声認識(耐雑音)(第5回音声言語シンポジウム)
- 連続発話認識のための言語モデル
- 頑健な区間検出とモデル適応に基づく雑音下音声認識(雑音下音声処理)(第6回音声言語シンポジウム)
- 頑健な区間検出とモデル適応に基づく雑音下音声認識(雑音下音声処理)(第6回音声言語シンポジウム)
- 区分線形変換による尤度最大化雑音適応法の検討
- 尤度最大化規準による雑音適応
- MLLRにおける適応データの量に応じたクラスタ数の選択法
- HMM音声合成における自然性と個人性に優れた韻律モデル適応法の検討
- マルチモーダル音声認識におけるストリーム重みの教師なし推定法の検討
- 話し言葉音声合成の韻律制御に関する検討
- マルチモーダル音声認識におけるストリーム重みの教師なし推定法の検討
- 話し言葉音声合成の韻律制御に関する検討
- 何かが欠けている音声認識研究(第11回音声言語シンポジウム)
- 何かが欠けている音声認識研究(第11回音声言語シンポジウム)
- 自由発話を対象とした対話システムの構築と評価
- 雑音下音声におけるスペクトル縮小の分析とその耐雑音音声認識への利用
- 音声自動要約を利用した講演速聞きシステムの検討(自然言語情報処理研究会と一部合同開催 : NL・SLP合同開催 : 音声対話1)
- 教師なしクロスバリデーション適応法の諸条件における評価
- 教師なしクロスバリデーション適応法の諸条件における評価
- 5X-8 User identification using Time-of-Flight camera image streams
- 雑音に頑健な音声認識のための韻律情報の利用(自然言語情報処理研究会と一部合同開催 : 自動車内音声対話関連)
- ハフ変換による雑音に頑健な基本周波数抽出法
- ハフ変換を用いた雑音中の音声からの基本周波数抽出法
- 音声自動要約手法の英語ニュース音声への適用
- 信頼尺度を用いた音声自動要約の改善
- 雑音下音声におけるスペクトル縮小の分析とその耐雑音音声認識への利用(音声一般,聴覚・音声・言語とその障害/一般)
- 話し言葉音声認識における認識性能の個人差の解析
- 逐次話者適応を用いた並列処理型会議音声認識システムの検討
- Slice Chain Max-Sumアルゴリズムによるタンパク質のポテンシャルエネルギー最小化に関する研究
- 軽量な画像特徴量を用いたマルチモーダル音声認識(音声、聴覚,学生論文)
- 隠れマルコフモデルを用いた眼電位認識の研究(一般セッション,時系列パターン認識)
- 隠れマルコフモデルを用いた眼電位認識の研究(一般セッション,時系列パターン認識)