講演音声の音響的特徴分析と音響モデル構築方法の検討
スポンサーリンク
概要
- 論文の詳細を見る
自由発話の一つである講演音声の発話様式に頑健な音響モデルの構築方法について報告する.本稿ではまず, 同一話者の講演音声, 読み上げ音声を比較し, 発話様式の違いによる音響的特徴の違いが顕著であることを明らかにする.また周波数的特徴だけでなく, 発話速度の違いも認識率に大きく影響していることを示す.そこで発話速度の変動への対処として, (1)音響モデルにおける発話速度の変動のモデル化, (2)発話速度にあわせた分析窓長, フレーム周期の最適化を提案する.(1)は異なる継続時間長の音素セグメントで複数の音響モデルを構築し, 同一の音素環境に割り当てることで一つの音素モデルに統合するものである.これにより, 継続時間長の短い音素の出現位置を事前に知ることなく, 音素継続時間長の変動を吸収することができる.また, (2)は分析窓長, フレーム周期の最適化により音響モデル学習データとの間の音素継続時間長分布のずれを修正するとともに, 周期数分析における分析精度を改善するものである.これらの手法を併用することで, 単語誤り率を22.2%改善することができ, さらに教師なし適応との相乗効果も確認できた.
- 2001-07-13
著者
-
中村 哲
ATR音声言語通信研究所
-
中嶋 秀治
ATR音声言語コミュニケーション研究所
-
奥田 浩三
ATR音声言語コミニュケーション研究所
-
中村 哲
Atr音声口語コミュニケーション研究所
-
中嶋 秀治
早稲田大学国際情報通信研究科
-
中嶋 秀治
Atr音声言語通信研究所
-
河原 達也
ATR音声言語通信研究所
-
奥田 浩三
ATR 音声言語コミュニケーション研究所
関連論文
- A-16-18 Blendshapesによるリップシンクアニメーションのためのキーフレーム削除法(A-16.マルチメディア・仮想環境基礎,一般講演)
- 携帯型端末を用いた音声自動翻訳システムとフィールド実験(モバイルと放送の融合時代を迎えて(1セグ放送, モバイル放送, 携帯放送融合サービス, 1セグ対応携帯端末, モバイルコンテンツと放送コンテンツの融合, マルチメディア配信, ディジタル放送受信機, および一般))
- バイモーダル音声認識における音素境界を越えた同期性のモデル
- 5.効率的アニメ制作支援のための3次元CG技術(情報技術が支えるアートとコンテンツの世界)
- 連続音声認識候補受理/リジェクションのためのワードスポッティング仮説検証手法(第5回音声言語シンポジウム : システム・信頼度)
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- ATR実環境雑音DB-ATRANS-を用いた雑音重畳音声認識実験(耐雑音)
- 実走行車内単語音声データベースCENSREC-3と共通評価環境の構築
- CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
- 実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- 分散型認識システムでのデータ補完に関する一検討
- 歩行者支援GISにおける音声入力インタフェースの検討(福祉と言語処理/一般)
- 音声翻訳研究の展開(機械翻訳)
- 翻訳可能なフレーズを単位とした音声認識結果の信頼度評価
- 連続音声認識候補受理/リジェクションのためのワードスポッティング仮説検証手法(第5回音声言語シンポジウム : システム・信頼度)
- iFACe:デジタルアニメ声優体験システム
- 携帯型端末を用いた音声自動翻訳システムとフィールド実験
- 実環境における発話区間検出のための音響情報と画像情報の統合(音響と音声処理,音声強調,ロバスト音声認識)
- 実環境における発話区間検出のための音響情報と画像情報の統合(音響と音声処理,音声強調,ロバスト音声認識)
- 利得適応型AR-HMM分解法を用いた音響モデルの雑音適応化の検討(音響と音声処理,音声強調,ロバスト音声認識)
- 利得適応型AR-HMM分解法を用いた音響モデルの雑音適応化の検討(音響と音声処理,音声強調,ロバスト音声認識)
- CENSREC-2 : 実走行車内における連続数字音声データベースと評価環境の構築
- 自動車内における連続数字音声コーパスCENSREC-2の設計と評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- Switching dynamical systemとパーティクルフィルタを用いた非定常雑音の逐次推定(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- 自動車内における連続数字音声コーパスCENSREC-2の設計と評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- 自動車内における連続数字音声コーパスCENSREC-2の設計と評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- Switching dynamical systemとパーティクルフィルタを用いた非定常雑音の逐次推定(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- Switching dynamical systemとパーティクルフィルタを用いた非定常雑音の逐次推定(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- 歩行者支援地理情報システムにおける音声入力インタフェースと高齢者に対するその評価
- 歩行者支援GISにおける音声入力インタフェースの検討(福祉と言語処理/一般)
- HMM/BN音響モデルの設計と実装
- HMM/BN音響モデルの設計と実装(国際ワークショップ"Beyond HMM")
- HMM/BN音響モデルの設計と実装(国際ワークショップ"Beyond HMM")
- 雑音や発話スタイルの変動に頑健な日本語大語彙連続音声認識
- ハイブリッドHMM/BNモデルに基づいた調音特徴とスペクトル特徴の統合
- ハイブリッドHMM/BNモデルに基いた大語彙音声認識システム
- ハイブリッドHMM/BNモデルに基いた大語彙音声認識システム
- 多様な雑音環境下での頑健な音声認識
- GMMを用いた音声区間の検出
- インドネシア語の音声コーパス作成および音声認識システムの開発
- インドネシア語の音声コーパス作成および音声認識システムの開発
- インドネシア語の音声コーパス作成および音声認識システムの開発
- インドネシア語の音声コーパス作成および音声認識システムの開発(ポスターセッション)(第6回音声言語シンポジウム)
- インドネシア語の音声コーパス作成および音声認識システムの開発(ポスターセッション)(第6回音声言語シンポジウム)
- インドネシア語の音声コーパス作成および音声認識システムの開発(ポスターセッション)(第6回音声言語シンポジウム)
- マルチモーダル音声認識のための顔検出
- マルチモーダル音声認識のための顔検出
- 話者の顔画像を併用した発話検出
- 擬人化音声対話エージェント基本ソフトウェアの開発プロジェクト報告(プロジェクト紹介(2))(第5回音声言語シンポジウム)
- 擬人化音声対話エージェント基本ソフトウェアの開発プロジェクト報告(第5回音声言語シンポジウム : プロジェクト紹介(2))
- 擬人化音声対話エージェント基本ソフトウェアの開発プロジェクト報告(第5回音声言語シンポジウム : プロジェクト紹介(2))
- 擬人化音声対話エージェントツールキットGalatea
- 擬人化音声対話エージェント開発プロジェクト
- 擬人化音声対話エージェントツールキットの基本設計
- 擬人化音声対話エージェントツールキットの基本設計
- 講演音声の音響的特徴分析と音響モデル構築方法の検討
- 3次元個人顔モデルを用いたビデオ映像中の顔の自動トラッキング及びモデルマッチムーブ処理
- D-12-126 3次元顔モデルを用いたビデオ映像中の自動顔トラッキングとモデルマッチムーブ
- モーションキャプチャシステムを用いたマルチモーダル音声コーパスの構築(セッション2)(インタラクション・メディア)
- 一般化事後確率を用いた異なるレベルの大語彙連続音声認識出力の検証
- 一般化事後確率を用いた異なるレベルの大語彙連続音声認識出力の検証
- 連続音声認識候補受理/リジェクションのためのワードスポッティング仮説検証手法
- 一般化事後確率を用いた異なるレベルの大語彙連続音声認識出力の検証(大語彙音声認識)(第6回音声言語シンポジウム)
- 一般化事後確率を用いた異なるレベルの大語彙連続音声認識出力の検証(大語彙音声認識)(第6回音声言語シンポジウム)
- 調音運動ダイナミクスの音声認識への応用(聴覚・音声/一般)
- F0パターンの自動推定と目標点の抽出(第8回音声言語シンポジウム)
- 一般化事後確率を用いた異なるレベルの大語彙連続音声認識出力の検証(大語彙音声認識)(第6回音声言語シンポジウム)
- 音声認識と音声翻訳の国際的共通評価基盤構築に向けて
- 音声認識と音声翻訳の国際的共通評価基盤構築に向けて
- 動的な音素ラティス処理による非母国語話者のための音声認識
- CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
- 実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
- 実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- 複数マイクロホン受音信号の逐次時間差推定アルゴリズム
- マイクロホンアレー座標系の逐次補正アルゴリズムの提案
- 変分ベイズ法を用いた逐次状態分割法(音響モデル)(第5回音声言語シンポジウム)
- 変分ベイズ法を用いた逐次状態分割法(第5回音声言語シンポジウム : 音響モデル)
- 変分ベイズ法を用いた逐次状態分割法(第5回音声言語シンポジウム : 音響モデル)
- AURORA-2J/AURORA-3Jデータベースとその評価ベースライン
- 雑音下音声認識のための複数の前処理手法の統合とそのAURORA-2Jによる評価
- マイクロホン対を用いた雑音除去法の最適化に関する検討 : スペクトルの滑らかさに基づいた場合
- SPINE2プロジェクトのための単語間ポーズモデルによる耐雑音性に優れた音声認識
- SPINE2プロジェクトのための単語間ポーズモデルによる耐雑音性に優れた音声認識
- DARPA SPINEタスクのためのATR音声認識システム
- DARPA SPINEタスクのためのATR音声認識システム
- 国内における音声データベースの現状 : 開発,管理及び音声研究への利用
- 大規模日本語音声データベースの構築と評価
- ATR音素バランスデータベースにおける高精度の音響モデル学習
- 中国語統計単語分割システムのためのブートストラップ構築法
- SPINE2プロジェクトのための耐雑音性に優れたベースライン音響モデルの構築
- 中国語音声認識における音素環境のモデリング
- 中国語音声認識のための基本的な音響単位の調査
- 非定常信号における雑音パワースペクトル密度のマルチチャンネル推定
- 非定常信号における雑音パワースペクトル密度のマルチチャンネル推定
- 非定常信号における雑音パワースペクトル密度のマルチチャンネル推定
- 非定常信号における雑音パワースペクトル密度のマルチチャンネル推定(ポスターセッション)(第6回音声言語シンポジウム)
- 非定常信号における雑音パワースペクトル密度のマルチチャンネル推定(ポスターセッション)(第6回音声言語シンポジウム)