調音運動ダイナミクスの音声認識への応用(聴覚・音声/一般)
スポンサーリンク
概要
- 論文の詳細を見る
本研究では、我々は実測した調音データを用いて音声生成メカニズムを音声認識方法に導入することを試みた。まず、調音運動データに対して音声信号と同様にHMMにより音素認識の試験を行なった。調音データのみの場合得られた認識率がそれほど高くないが、調音データ(変位)を音声データに追加することによって音声データのみより高い認識率が得られた。これは調音データが音声データにない有用な情報をもっていることを示唆している。さらに、変位以外の調音運動ダイナミクスによる音声認識への寄与を明らかにするため、調音運動の速度・加速度を音響パラメータ(MFCC)のΔMFCC・ΔΔMFCCを対応して考察した。その結果、調音運動の速度はΔMFCCと同程度の寄与があり、調音運動の加速度成分は速度成分のように同程度に貢献していることがわかった。それに対して、音響パラメータの「加速度」成分は音声認識にほとんど貢献していない。調音運動(変位)データはハイブリドHMM/BNモデルにより音響パラメータに結合され、隠れパラメータとして音声認識に応用した。いくつかの条件の下で比較してみたところ、調音データの導入による音素の認識率は、音響パラメータのみの場合より、良い結果が得られた。従って、音声生成における調音ダイナミクスは音声認識に大きく寄与できることが期待できる。
- 社団法人電子情報通信学会の論文
- 2003-06-19
著者
-
中村 哲
独立行政法人情報通信研究機構:(株)atr音声言語コミュニケーション研究所
-
党 建武
北陸先端科学技術大学院大学情報科学研究科
-
中村 哲
ATR音声言語通信研究所
-
党 建武
北陸先端科学技術大学院大学
-
中村 哲
(独)情報通信研究機構
-
党 健武
北陸先端科学技術大学院大学
-
マルコフ コンスタンティン
ATR音声言語コミュニケーション研究所
-
飯塚 陽介
北陸先端科学技術大学院大学
-
Markov Konstantin
ATR
-
中村 哲
ATR Interpreting Telephony Research Laboratories
-
Markov Konstantin
Atr音声言語コミユニケーション研究所
-
党 建武
Atr音声言語コミュニケーション研究所:北陸先端科学技術大学院大学
-
コンスタンテイン マルコフ
Atr音声言語コミユニケーション研究所
関連論文
- A-16-18 Blendshapesによるリップシンクアニメーションのためのキーフレーム削除法(A-16.マルチメディア・仮想環境基礎,一般講演)
- 京都観光案内対話コーパスにおける対話行為タグの設計と分析(理解)
- 同調的対話システム構築のための音声対話コーパスの構築(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- 高効率エネルギー放射を意図したアンプの研究開発(学生研究発表会)
- 携帯型端末を用いた音声自動翻訳システムとフィールド実験(モバイルと放送の融合時代を迎えて(1セグ放送, モバイル放送, 携帯放送融合サービス, 1セグ対応携帯端末, モバイルコンテンツと放送コンテンツの融合, マルチメディア配信, ディジタル放送受信機, および一般))
- NICT知識創成コミュニケーション研究センターの研究と高度言語情報融合フォーラム(ALAGIN)の活動について(Web情報処理,Webとデータベースに関する技術報告)
- D-14-1 素片編集型音声合成における発話スタイルに関する研究(D-14. 音声,一般セッション)
- IECを用いた素片接続コストの重み係数推定
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
- バイモーダル音声認識における音素境界を越えた同期性のモデル
- 音声翻訳システムの研究開発
- 音声認識における頑健性 : 音響分析・音響モデル,なにが課題か(企画)
- NICTにおける音声・言語研究拠点MASTARプロジェクトについて(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- 音声翻訳単位の推定における句読点情報の効果(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- 多チャンネル三次元音場再現システムの再生方式の違いによる再現性能評価
- マルチモーダル音声言語処理とその応用(マルチモーダル)
- 音声翻訳研究20年の夜明け : 受賞業績 携帯電話によるネットワーク型コーパスベース音声翻訳システムの構築(平成19年度喜安記念業績賞紹介)
- 同時通訳者の知識と韻律情報を用いた講演文章のチャンキング(チャンキング・要約)
- 2D-5 多言語音声翻訳基盤の通信インタフェースの検討と構築(音声対話・翻訳,一般セッション,人工知能と認知科学)
- ストーリへの没入感を実現するダイブイントゥザムービープロジェクト(テーマ関連/オーガナイズドセッション)
- ストーリへの没入感を実現するダイブイゥザムービープロジェクト(オーガナイズドセッション,CV/PR技術のVRへの応用)
- 5.効率的アニメ制作支援のための3次元CG技術(情報技術が支えるアートとコンテンツの世界)
- NICTにおけるユニバーサルコミュニケーションのための音声言語研究(研究動向を探るセッション)
- HMM/BN音響モデルの設計と実装(国際ワークショップ"Beyond HMM")
- 連続音声認識候補受理/リジェクションのためのワードスポッティング仮説検証手法(第5回音声言語シンポジウム : システム・信頼度)
- 統計的対話モデルを用いたWFSTに基づく音声対話システム
- 同調的対話を実現するプロトタイプシステムの開発(対話・インタフェース・インタラクション)
- GMMに基づいた雑音感度関数を用いたロバスト音声認識(聴覚・音声及び一般)
- 音声翻訳単位の推定における句読点情報の効果(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- 音声翻訳単位の推定における句読点情報の効果(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- 来場者の声の特徴を反映する映像エンタテインメントシステムのための台詞音声生成システム
- iFACe:デジタルアニメ声優体験システム
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 個人の音声を反映する映像エンタテインメントシステム
- 上下歯列間間隙により生じる声道の分岐管
- QAシステムのための音声入力インターフェース
- 音声認識の信頼度・複数候補を利用したWFST対話システムの評価
- 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
- 3次元MRI動画データと実音声を用いた声道断面積モデルのパラメータ推定
- 3次元舌モデルを用いる母音構音のforce vector及びλvectorに関する検討(音声・聴覚,一般)
- D-16-9 生理学的モデルに基づく舌手術補助インタフェースの構築(D-16.医用画像,一般講演)
- 喉頭モデルでカップリング問題関する数値解析(音声・聴覚,一般)
- 相談型対話のモデル化と対話戦略の最適化
- 発話機構モデルに基づく音声と調音状態との一対多の関係に関する考察
- 音声認職の信頼度・複数候補を利用したWFST対話システムの評価
- 音声と一対多の関係にある調音状態の分布構造 : 発話機構モデルに基づく考察(聴覚・音声・言語とその障害,一般)
- D-14-17 破裂子音の音響特徴に関する研究(D-14. 音声,一般セッション)
- HMM/BN音響モデルの設計と実装
- HMM/BN音響モデルの設計と実装(国際ワークショップ"Beyond HMM")
- HMM/BN音響モデルの設計と実装(国際ワークショップ"Beyond HMM")
- ハイブリッドHMM/BNモデルに基づいた調音特徴とスペクトル特徴の統合
- ハイブリッドHMM/BNモデルに基いた大語彙音声認識システム
- ハイブリッドHMM/BNモデルに基いた大語彙音声認識システム
- ベイジアンネットとジャンクションツリー分解を用いて知識を組み込んだ統計的音響モデル(第8回音声言語シンポジウム)
- ベイジアンネットとジャンクションツリー分解を用いて知識を組み込んだ統計的音響モデル(Session-5 特徴量・音響モデル,第8回音声言語シンポジウム)
- ベイジアンネットとジャンクションツリー分解を用いて知識を組み込んだ統計的音響モデル(Session-5 特徴量・音響モデル,第8回音声言語シンポジウム)
- マルチモーダル音声認識のための顔検出
- マルチモーダル音声認識のための顔検出
- リアルな発話運動を実現する生理学的口唇力学モデルの構築(バイオサイバネティックス, ニューロコンピューティング)
- 模倣による調音ダイナミクスモデル制御の獲得(「脳・認知科学」及び一般)
- 音声生成における軟口蓋の働きのモデル化に関する研究(音声・聴覚,一般)
- 調音運動ダイナミクスの音声認識への応用(聴覚・音声/一般)
- F0パターンの自動推定と目標点の抽出(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- F0パターンの自動推定と目標点の抽出(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- 新映像技術「ダイブイントゥザムービー」
- 音場の局所化技術を応用した指向性スピーカシステムの試作と評価
- 有限要素法による母音の声道中の伝播経路
- 舌と喉頭との相互作用を考慮した発話器官の生理学的モデル
- 調音データに基づいた調音結合の分析
- 音声翻訳技術の動向
- 音声生成機構のMRI観測と生理学的調音モデル(聴覚・音声・言語とその障害)
- 発話時舌内部変形のモデルシミュレーションとtagged-MRIによる観測との比較(合成, 生成, 韻律, 一般)
- 筋の拮抗関係を考慮した生理学的調音モデルの制御
- 発話機構モデルによる逆推定法を用いた音韻の識別
- 発話機構モデルによる声道形状逆推定法を用いた音韻と発話様式の分析
- 発話機構モデルによる声道形状逆推定法を用いた音韻と発話様式の分析
- 生理学的調音モデルを用いた音声信号に基づく声道形状の推定
- 生理学的調音モデルを用いる音声合成法
- 生理的喉頭モデルによる基本周波数の制御
- 生理学的調音モデルを用いた母音系列の合成
- 生理学的調音モデルに基づく3次元声道形状の生成
- 傍矢状面の変形を考慮した舌の生理学的モデル
- 中国語母音における舌の調音運動の三次元的観測
- 新映像技術「ダイブイントゥザムービー」
- 乳幼児の音声模倣能力の獲得過程における調音ジェスチャの役割(聴覚・音声/一般)
- 通常発話状態と特異発話状態との判別基準の検討(聴覚・音声/一般)
- 日本語5母音の調音・音響的観測とモデルシミュレーションとの比較(音声・聴覚,一般)
- 雑音DBを用いたモデル適応化HMMのSN比別マルチパスモデルによる雑音下音声認識
- 言葉の壁を越える音声翻訳技術
- Web時代の音声・言語技術
- 音響管内にある分岐の開口端補正とその形状との関連について
- 舌の三次元的変形と筋電図との関連について
- 声道伝達特性における反共振特性の詳細を計測する新しい : 音響管を用いた実験的な検討
- ディジタルオーディオにおける深い感性に関連した音質劣化の原因究明--jitterに起因する音質劣化の仕組みの解明と新改善方法の検討 (特集 感性ロボティクス)
- 鼻腔と口腔との音響結合における軟口蓋の機能
- 母音発声時の音声スペクトルに対する梨状窩の影響
- 梨状窩(pyriform fossa)の音声スペクトルへの影響
- 副鼻腔音響特性の観測