発話速度と言語的特徴による変動を考慮した音素持続時間モデルを用いた音声認識(音声言語)
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,音声認識により生じる認識誤りのうち,持続時間が本来の長さと極端に異なるものを抑制する手段として,音素持続時間のモデルを用いる方法の検討を行った.そして,発話速度や言語的要因によってもたらされる持続時間の変動を考慮した,音素持続時間モデル化法と,その音声認識への適用手法の提案を行う.従来,音声合成の分野を中心として様々な音素持続時間の生成法が提案されているが,音声認識を目的として,発話速度の影響と音素の文中での位置や品詞などの言語的特徴の影響の双方を考慮に入れた音素持続時間のモデル化法や認識手法はなかった.本論文では,言語的特徴などを質問として用いた決定木により求められるクラスを単位とし,音素の持続時間と発話速度と相関の高い局所平均母音長の2次元正規分布として持続時間のモデル化を行うことで,様々な要因により変化する音素持続時間を高精度に推定を行う方法を提案する.また得られた持続時間の分布を,音声認識結果のN-bestのリスコアリングに利用することで,認識率の改善が得られることを述べる.
- 2006-12-15
著者
-
牧野 正三
東北大学大学院工学研究科
-
鈴木 基之
東北大学大学院工学研究科
-
伊藤 彰則
東北大学大学院工学研究科
-
牧野 正三
東北大学大型計算機センター:大学院情報科学研究科
-
大河 雄一
東北大学大学院工学研究科
-
大河 雄一
東北大学大学院教育情報学教育部:東北大学大学院教育情報学研究部
関連論文
- 時間冗長性圧縮によるボコーダ型音声符号化の低ビットレート化(音声,聴覚)
- MP3パケットロス隠蔽における音質の客観評価に関する検討(音響信号処理,一般)
- マルチタスク型音声対話システムの対話制御のための発話識別 (言語理解とコミュニケーション)
- PLSA言語モデル適応におけるアニーリングスケジュールの評価(言語モデル・システム,第10回音声言語シンポジウム)
- Quinphone HM-Netを用いた単語グラフ統合に基づく講演音声認識 (音声)
- F-036 大規模問題における階層型並列分散遺伝的アルゴリズムの影響についての考察(F分野:人工知能・ゲーム)
- 時間冗長性圧縮によるボコーダ型音声符号化の低ビット化(言語獲得・学習,合成,生成,韻律,一般)
- 質問応答データベースの自動作成に基づく音声対話システムの評価(ポスターセッション,第10回音声言語シンポジウム)
- 生成したテキストのNgramを用いた英語学習者による文法誤りを含んだ発話の音声認識の高精度化(一般(ポスターセッション),第9回音声言語シンポジウム)
- 時間冗長性圧縮によるボコーダ型音声符号化の低ビットレート化
- I-009 全方位ステレオによる環境マップ生成に関する検討(I.画像認識・メディア理解)
- Quinphone HM-Netを用いた単語グラフ統合に基づく講演音声認識(音声・言語・音響教育,一般)
- 自律移動型ロボットとの対話システムをめざして
- 多段GMMおよびセグメントモデルを用いた異常音検出の検討(音響信号処理,一般)
- 5R-4 ハミング楽曲検索のための音響信号からのデータベース生成の検討(音楽検索・解析,学生セッション,人工知能と認知科学)
- 1W-1 ビットストリームパターン再構成によるFlash Videoの適応的Multiple Description符号化(映像処理システム,学生セッション,ネットワーク)
- WWWを利用したトピック関連語推定に基づく言語モデル教師なし適応の性能評価 (言語理解とコミュニケーション)
- ビットストリームパターン再構成によるFlash Videoの適応的Multiple Description符号化(画像符号化,通信・ストリーム技術,一般)
- ビットストリームパターン再構成によるFlash Videoの適応的Multiple Description符号化(画像符号化,通信・ストリーム技術,及び一般)
- ビットストリームパターン再構成によるFlash Videoの適応的Multiple Description符号化(画像符号化,通信・ストリーム技術,及び一般)
- ビットストリームパターン再構成によるFlash Videoの適応的Multiple Description符号化(画像符号化,通信・ストリーム技術,及び一般)
- 質問応答データベースの自動作成に基づく音声対話システムの評価(ポスターセッション,第10回音声言語シンポジウム)
- B-6-82 ディスジョイントパスルーティングによる高秘話・高音質音響通信システム(B-6.ネットワークシステム,一般講演)
- 歌唱の「熱唱度」評価の検討
- PLSA言語モデル適応におけるアニーリングスケジュールの評価(言語モデル・システム,第10回音声言語シンポジウム)
- PLSA言語モデル適応におけるアニーリングスケジュールの評価(言語モデル・システム,第10回音声言語シンポジウム)
- マルチタスク型音声対話システムの対話制御のための発話識別(言語モデル,第11回音声言語シンポジウム)
- マルチタスク型音声対話システムの対話制御のための発話識別
- Aspectモデルを用いた話者と環境適応音声認識システムの検討(一般(ポスターセッション),第9回音声言語シンポジウム)
- Aspectモデルを用いた話者と環境適応音声認識システムの検討(一般(ポスターセッション),第9回音声言語シンポジウム)
- Aspectモデルを用いた話者と環境適応音声認識システムの検討(一般(ポスターセッション),第9回音声言語シンポジウム)
- 複数F0候補を用いた音楽音響信号からのハミング楽曲検索
- 複数の音声対話システム併用のための発話識別
- 複数 F0 候補データベースによる歌声楽曲検索の検討
- ウインター・サイエンスキャンプ「種々の気体の粘度を測ってみよう」を実施して
- 3116 人間の手助けとなる機能を有するロボット IRIS の開発
- 科学技術振興機構主催のウィンター・サイエンスキャンプ(高校生対象) : 種々の気体の粘度を測ってみよう(ながれと創造教育)
- 監視マイクロホンのための多段GMMを用いた異常音検出手法(テーマセッション,福祉と見守りのための画像・音声処理)
- 監視マイクロホンのための多段GMMを用いた異常音検出手法(テーマセッション,福祉と見守りのための画像・音声処理)
- 監視マイクロホンのための多段GMMを用いた異常音検出手法(テーマセッション,福祉と見守りのための画像・音声処理)
- 地域パラメータを利用したNOAA AVHRR画像の雲域判定
- 気象衛星NOAA画像を用いた雲域認識に関する研究
- 木構造HMMによるLSP係数の符号化
- セグメント末端処理を用いたErgodic HMMによるLSP係数の符号化
- セグメント末端処理を用いたErgodic HMMによるLSP係数の符号化
- セグメント末端処理を用いたErgodic HMMによるLSP係数の符号化
- 複数F0候補データベースによる歌声楽曲検索の検討
- WWWを利用したトピック関連語推定に基づく言語モデル教師なし適応の性能評価(一般(ポスターセッション),第11回音声言語シンポジウム)
- WWWを利用したトピック関連語推定に基づく言語モデル教師なし適応の性能評価
- WWWを利用した言語モデル適応のための検索クエリ構成の検討
- WWW を利用した言語モデル適応のための検索クエリ構成の検討
- WWW を利用した言語モデル適応のための検索クエリ構成の検討
- 音素ごとの木構造話者クラスタリングによる話者適応
- 音素毎の話者クラスタリングに基づく話者適応法
- 音素毎の話者クラスタリングに基づく話者適応法
- 音素毎の話者クラスタリングに基づく話者適応法
- 音素毎の話者クラスに基づく話者適応法
- SSS-freeに基づくHMnetにおけるVFSの効果
- 質問応答データベースの自動作成に基づく音声対話システムの評価(ポスターセッション,第10回音声言語シンポジウム)
- 3次元ヒストグラムを用いたNOAA AVHRR画像からの海域の抽出法
- 3L-4 NOAA衛星画像を用いた3次元ヒストグラムによる海域と非海域の境界決定法
- 地域パラメータを知識とするNOAA AVHRR画像の雲域認識
- 車内騒音の混じった単母音認識におけるA特性付加の効果
- 電話帯域に制限した騒音重畳単母音の認識
- 騒音重畳単母音の認識
- 伝達特性の変化による単母音認識率の変化
- ローカルピークによる単母音認識に及ぼす時間窓とリフタの影響
- セマンティックフレームベースの音声対話システムの検討
- 英語CALL構築を目的とした日本人及び米国人による読み上げ英語音声データベースの構築(第二言語学習とその支援に関する教育工学研究)
- 音声言語処理技術を用いた語学学習システム
- G-014 鼻歌入力による音楽検索のための特徴量の比較(G.音声・音楽)
- 複数の音高候補値を用いた楽曲検索システムの構築
- 合成音声と評価スコア統合に基づく英語のイントネーション評価(認識,理解,対話,一般)
- 音声対話システムにおけるタスク外発話処理の高度化に関する研究(システム,第9回音声言語シンポジウム)
- パス数削減や平滑化法を用いたSSS-freeによる音素認識の高精度化(一般(ポスターセッション),第9回音声言語シンポジウム)
- 自律移動ロボットのためのフレームベース音声対話システム(特別セッション「言語理解と行動」(3))
- 自律移動ロボットのためのフレームベース音声対話システム(特別セッション : 言語理解と行動(3))
- 複数の雑音重畳モデルの合成による複数雑音環境に頑健な音響モデルの検討(認識・理解・対話)
- 複数の雑音重畳モデルの合成による複数雑音環境に頑健な音響モデルの検討(認識・理解・対話)
- 様々な雑音環境での音声対話における文法と認識精度の関係の分析(ポスターセッション)(第5回音声言語シンポジウム)
- バイリンガル話者音声に基づく二言語混合音響モデルの話者適応法の検討(ポスターセッション)(第5回音声言語シンポジウム)
- 様々な雑音環境での音声対話における文法と認識精度の関係の分析(第5回音声言語シンポジウム : ポスターセッション)
- バイリンガル話者音声に基づく二言語混合音響モデルの話者適応法の検討(第5回音声言語シンポジウム : ポスターセッション)
- ジェスチャ認識システムに向けた顔検出法の検討(顔とジェスチャの認識)
- HSn-gramの学習法の検討
- 決定木を用いた単語クラスタリングによる英語韻律自動評価の高精度化(教育システムにおけるプラットホームとコンテンツ開発論文)
- I-021 動き情報を用いたビットストリームパターン推定によるFlash VideoのMultiple Description符号化(グラフィクス・画像,一般論文)
- 3Y-3 Multiple Description符号化を用いたFlash Videoストリーミングのパケットロス補償に関する検討(画像符号化とその応用システム,学生セッション,ネットワーク)
- 小型ロボットによる音声認識のための内部雑音抑圧法
- 複数の音程特徴量によるハミング入力楽曲検索システムの高精度化(スペシャルセッション・歌情報処理1)
- 複数の音程特徴量によるハミング入力楽曲検索システムの高精度化(スペシャルセッション・歌情報処理1)
- 音声対話システムにおけるタスク外発話処理の高度化に関する研究(システム,第9回音声言語シンポジウム)
- パス数削減や平滑化法を用いたSSS-freeによる音素認識の高精度化(一般(ポスターセッション),第9回音声言語シンポジウム)
- 生成したテキストのNgramを用いた英語学習者による文法誤りを含んだ発話の音声認識の高精度化(一般(ポスターセッション),第9回音声言語シンポジウム)
- SN比に頑健なマルチミクスチャーHMMの性能評価(耐雑音, 音源分離, ロボット)
- Lempel-Ziv符号化を用いたLSP係数のセグメント量子化(音声,聴覚)
- Lempel-Ziv符号化を用いたLSP係数のセグメント量子化(聴覚・音声及び一般)
- KL展開を用いたオーディオ信号の次元圧縮に関する検討
- LZ符号化を利用した音声符号化
- LZ符号化を利用した音声符号化