コードブックを用いた実時間処理CMNの実装と評価
スポンサーリンク
概要
- 論文の詳細を見る
人型ロボットや券売機など公共の音声認識システムには話者交替が頻繁に生じるという特徴があるため,高速な話者適応技術が重要である.話者,空間,収録機器等を簡便に一括して正規化する手法としてケプストラム平均正規化(CMN)が広く用いられている.公共の音声認識システムでは,空間や収録機器の特性が急激な変化をすることは少ないので, CMNは主に話者正規化の効果を果たす.しかしながら, CMNは一般に発話単位でケプストラム平均値を算出するため,発話の人力開始と同時に認識処理を開始できない.そのため公共の音声認識システムでは必須である実時間処理が困難である.また,公共の音声認識システムは発話が短時間である傾向があるが,そのような場合, CMNは音韻の偏りの影響により性能が劣化してしまうという問題点がある.そこで,認識処理中に母音区間を検出し,母音ケプストラムを入力情報として,コードブックにより発話者に近い話者の発話を発話データベースから選択し,近似的に長時間CMをフレーム同期で求める手法を提案する.音声対話情報案内システム「たけまるくん」により収集した実環境データを用いた実験により,公共の音声認識システムにおけるオンライン/オフラインCMNの効果を明らかにする.結果,提案法は実時間処理であるが,発話単位でCMを算出するCMNに匹敵する性能を示した.また,代表的な従来の実時間処理CMNと比較しても,提案法が優位であることがわかった.
- 一般社団法人情報処理学会の論文
- 2006-02-03
著者
-
猿渡 洋
奈良先端科学技術大学院大学
-
戸田 智基
奈良先端科学技術大学院大学
-
李 晃伸
名古屋工業大学
-
川波 弘道
奈良先端科学技術大学院大学
-
李晃伸
名古屋工業大学大学院情報工学専攻
-
鹿野 清宏
奈良先端科学技術大学院大学
-
李 晃伸
名古屋工業大学大学院工学研究科
-
季 晃伸
京大
-
追立 真吾
奈良先端科学技術大学院大学情報科学研究科
関連論文
- 独立成分分析を導入した空間的サブトラクションアレーによるハンズフリー音声認識システムの開発(音声,聴覚)
- MMSE STSA estimator with ICA-based nonstationary noise estimation for high-quality speech enhancement (音声)
- ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術の総合開発(総合報告)
- 混合正規分布モデルに基づく声質変換の高速化を目的とした共分散行列の対角化(合成)
- スペクトル系列の最尤推定に基づく短遅延声質変換法
- 反復型スペクトル減算法におけるミュージカルノイズ発生量の数理解析
- Mathematical metric of amount of musical noise in recursive spectral subtraction (応用音響)
- 並列ICAによる雑音推定に基づくリアルタイムブラインド音源抽出マイクロホンの開発(音声,聴覚)
- 空間的スペクトルサブトラクションを用いたハンズフリー音声認識
- 括弧表現に基づくWebテキストマイニングを用いた流行語への自動読み付与の提案
- ICAによる雑音推定を用いた平均二乗誤差最小化短時間振幅スペクトル推定法に基づく両耳補聴器 (応用音響)
- NAMセグメントを用いた個人認証法における未知話者データに対する頑健性の評価(聴覚・音声/一般)
- 実環境向け音声対話ロボット「キタちゃん」の開発
- 外部音源を用いた発声補助システムにおける統計的声質変換の評価(福祉と音声処理,一般)
- HMMに基づく音声合成における強調音声の生成(合成)
- 音響特性補正の導入による肉伝導音声変換の収録環境適応(認識)
- 肉伝導音声変換のための音響特性補正法
- 話者適応に基づく複数話者の非可聴つぶやき認識における話者正規化学習の有効性(音声認識技術)
- 4L-4 微弱振動子とNAMマイクを用いた発話障害者補助(リーディングプロジェクト e-society:自然な音声対話処理技術(2),一般セッション,リーディングプロジェクト e-society)
- 喉頭摘出者データを用いた人工音声変換システムの評価
- 喉頭摘出者の会話支援システムにおける微弱な音源信号に関する検討(聴覚・音声/一般)
- 肉伝導人工音声の変換に基づく喉頭全摘出者のための音声コミュニケーション支援システム(肢体不自由・コミュニケーション補助,情報福祉論文)
- 喉頭摘出者を想定して微弱な音源信号を用いて収録された肉伝導音声の声質変換(視覚障害/聴覚障害,一般)
- 11.人にやさしい音声インタフェース(第2部:情報の高信頼蓄積・検索技術等の開発,学と産の連携による基盤ソフトウェアの先進的開発)
- チャネル毎スペクトル減算と適応アレー信号処理の統合手法におけるミュージカルノイズ制御
- 音声対話システムにおけるWeb検索タスクの発話分析とWeb検索のための大規模単語コーパスの検討(言語モデル)
- 3Q-3 NAMマイクによる心音の収録とその明瞭化(音声の分析・合成,学生セッション,人工知能と認知科学)
- Mathematical metric of musical noise in arbitrary exponent domain SS (音声)
- Mathematical metric of musical noise in arbitrary exponent domain SS (信号処理)
- Mathematical metric of musical noise in arbitrary exponent domain SS (応用音響)
- MMSE STSA estimator with ICA-based nonstationary noise estimation for high-quality speech enhancement (信号処理)
- MMSE STSA estimator with ICA-based nonstationary noise estimation for high-quality speech enhancement (応用音響)
- 平均二乗誤差最小化短時間振幅スペクトル推定に基づくブラインド信号抽出
- 多点制御波面合成法とWave Field Synthesisによる合成波面の比較検討
- スペクトル減算法におけるミュージカルノイズ発生量と対数カートシス比の関連(音響信号処理/一般)
- GMMに基づく最尤変換法による携帯電話音声の帯域拡張(音響処理)
- 実環境における頑健な音声認識のための音韻モデルの教師なし話者適応(音声,聴覚)
- 十分統計量を用いた教師なし話者適応および環境適応(音声言語情報処理とその応用)
- 十分統計量に基づく教師なし環境話者適応におけるスペクトルサブトラクションの効果
- 十分統計量を用いた教師なし話者・環境適応の評価
- スペクトルサブトラクションを用いた十分統計量に基づく環境・話者適応
- 十分統計量を用いた音韻モデルの教師なし学習における話者選択法の検討
- 環境雑音適応アルゴリズムの大語彙連続音声認識による評価
- 相補的バックオフを用いた言語モデル融合ツールの構築
- Webからの音声認識用言語モデル自動生成ツールの開発
- 多対多最小パターンアライメントアルゴリズムの提案と自動読み付与による評価
- 統計的声質変換に基づく食道音声強調における声質制御
- 音声翻訳システムのための声質変換法と日中英語間における評価
- EA2010-30 反復型スペクトル減算法におけるミュージカルノイズ発生量の数理解析
- チャネル毎スペクトル減算と適応アレー信号処理の統合手法におけるミュージカルノイズ制御
- チャネル毎スペクトル減算と適応アレー信号処理の統合手法におけるミュージカルノイズ制御
- チャネル毎スペクトル減算と適応アレー信号処理の統合手法におけるミュージカルノイズ制御
- EA2010-29 オーディオオブジェクト定位情報に基づく楽曲サムネイル自動生成手法
- 最近の音声処理に用いられるマイクロホンアレー技術
- Juliusを用いた学内案内ロボット用音声対話システムの作成
- Juliusを用いた学内案内ロボット用音声対話システムの作成
- Juliusを用いた学内案内ロボット用音声対話システムの作成
- スペクトルサブトラクションを用いた十分統計量に基づく環境・話者適応
- 参照話者を用いた多対多固有声変換法
- STRAIGHT混合励振源を用いた混合正規分布モデルに基づく最ゆう声質変換法(音声,聴覚)
- 3L-1 音声情報案内システム「たけまるくん」の運用(リーディングプロジェクト e-society:自然な音声対話処理技術(1),一般セッション,リーディングプロジェクト e-society)
- 音響モデルと言語モデルに基づく音声区間検出を用いたハンズフリー音声認識アルゴリズムの評価(雑音・VAD,第9回音声言語シンポジウム)
- 解析型二次統計量ICAとkurtosisに基づく学習区間判定を用いたリアルタイムブラインド音源抽出(ブラインド信号処理の技術とその応用論文)
- 未知語認識のための仮名・漢字単位の構築手法と性能評価
- Google N-gramを用いた音声認識のタスク汎用性評価の試み
- HMM音声合成における系列内変動モデリング手法の評価
- 異なる収録機器に対応した肉伝導音声変換のための音響特性自動補正
- 1対多固有声変換に基づく無喉頭音声の音質及び話者性の改善
- Google N-gramを用いた音声認識のタスク汎用性評価の試み(一般(ポスターセッション),第11回音声言語シンポジウム)
- コサイン距離規範K-meansを用いた音楽信号圧縮符号化における基底ベクトル切換時刻の最適化(音響信号処理/一般)
- 任意乗スペクトル減算法におけるミュージカルノイズ発生量の数理解析(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 任意乗スペクトル減算法におけるミュージカルノイズ発生量の数理解析(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 任意乗スペクトル減算法におけるミュージカルノイズ発生量の数理解析(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- ICAに基づく非定常雑音推定を用いた高品質音声強調向けMMSE STSA推定器(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- ICAに基づく非定常雑音推定を用いた高品質音声強調向けMMSE STSA推定器(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- ICAに基づく非定常雑音推定を用いた高品質音声強調向けMMSE STSA推定器(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- ICAによる雑音推定を用いた平均二乗誤差最小化短時間振幅スペクトル推定法に基づく両耳補聴器
- 単語の頻度と音響の特徴を利用したSVMによる無効入力の棄却
- オーディオオブジェクト個別操作法とそのイヤホン漏洩雑音低減への応用(立体音響,一般)
- ブラインド音源分離に基づくオーディオオブジェクトの定位感操作とその評価(音源分離/一般)
- Closed-form 2次統計量ICAとnonclosed-form高次統計量ICAを用いたブラインド音源分離(ブラインド信号処理/一般)
- 実環境研究プラットホームとしての音声情報案内システムの運用(音声,聴覚)
- 並列ICAによる雑音推定に基づくブラインド音源抽出装置の開発
- 単一入力・多点出力系に基づく独立成分分析を用いた実時間音源分離
- SIMO-ICAとSIMOモデルに基づくバイナリマスク処理を結合した歪の少ないブラインド音源分離(音響・超音波サブソサイエティ合同研究会)
- SIMOモデルに基づくICAバイナリ・マスク処理を組み合わせたブラインド音源分離(立体音響・音場制御/一般)
- 統計的声質変換を用いた食道発声音声の音質改善
- 音声情報案内システムにおけるSVMを用いたタスク外発話の検出
- 相補的バックオフを用いた言語モデル融合ツールの構築
- Mathematical metric of musical noise in Wiener filtering (音声)
- リアルタイムブラインド空間的サブトラクションアレーを導入したハンズフリー音声対話システムの構築(音響信号処理/一般)
- 解析型二次統計量ICAとkurtosisに基づく学習区間判定を用いた高次統計量ICAの高速化(音響信号処理/一般)
- リアルタイムブラインド空間的サブトラクションアレーを導入したハンズフリー音声対話システムの構築(音響信号処理/一般)
- 解析型二次統計量ICAとkurtosisに基づく学習区間判定を用いた高次統計量ICAの高速化(音響信号処理/一般)
- NAMマイクロホンによるロボット内部雑音抑圧処理を備えた空間的サブトラクションアレー
- 事前収録話者データを用いた多対一声質変換法(合成,生成,韻律,一般)
- 解析型二次統計量ICAとleast-squares ICAを用いたブラインド音源分離(立体音響,一般)
- 二次音源選択強調性を持つ多チャネル逆フィルタの主観評価(音響信号及び音声処理,エンハンスメント/一般)
- 二次音源選択強調性を持つ多チャネル逆フィルタによるユーザ移動に頑健な音場再現(音楽の音合成と音響・音場再生, HDA/一般)
- 周波数領域ICAと時間領域ICAを統合したSIMOモデル信号のブラインド抽出法の評価(マイクロホンアレー・ブラインド分離・音源位置推定/一般)