直交化音声セグメント符号帳を用いたHMMに基づく不特定話者単語認識
スポンサーリンク
概要
- 論文の詳細を見る
スペクトル-時間パターンを直接量子化するマトリクス量子化(MQ)には,その次元数が多いこととパターン変動が少なくないことから,VQと比較して量子化誤差が増大するという問題がある.そこで,本論文ではMQの単位に音声セグメントと呼ぶ音響的/音声学的構造を導入する.また誤差尺度の計算に,統計的パターン認識手法である部分空間法を採用した統計的マトリクス量子化(SMQ)を適用する.SMQは,音声セグメントごとのパターン変動を代表する固有ベクトルセットによって直交化音声セグメント符号帳を構成することで,パターン変動を効果的に組み込むことを意図している.また,音声セグメントコード列を用いてHMMを学習する際に,1位からK位までの音声セグメントコード列を等しく取り扱う方法(K-best等化学習)を提案する.K-best等化学習はファジィVQと比較してはるかに簡潔であるにもかかわらず,同等以上の出力確率平滑化能力をもち,音声を音声セグメントコード列へ置換する際の誤差の影響を少なくできる.「SMQ/HMM+K-best等化学習」方式により,10名の未知話者が発声した類似単語対を含む100単語からなるデータセットに対して,96.0%の高い不特定話者単語認識性能を得た.
- 社団法人電子情報通信学会の論文
- 1993-01-25
著者
関連論文
- 日本語発話の発音誤り検出における留学生と日本人学生との対比 : 音声セグメント技術による「じ」と「ち」の弁別を中心として
- 音声認識による発語機能評価システムを用いた健常歯列者の発語分析
- 3.上顎義歯の口蓋形態の違いが発語機能に及ぼす影響(一般口演,第35回学術大会)
- 3.上顎義歯の口蓋形態の違いが発語機能に及ぼす影響(一般口演II)
- チェアサイドで使用可能な発語評価のための音声認識の開発(産学連携論文)
- 留学生による日本語発話におけるモーラタイミングの音声セグメント技術による評価 (特集 リズムとタイミング)
- 文字正解精度との相関の高い補正パープレキシティの算出法
- 東芝パソコンの音声認識 / 合成ソフトウェア
- パソコン用音声認識ソフトウェアの応用
- 音声認識/合成OCXの開発
- 予備選択とA^*探索による大語彙単語認識
- 単語スポッティングに適した語頭・語尾モデルの検討
- 東芝における最近の音声合成・認識の応用
- SBusカードを用いたWSベース大語彙音声認識システム
- 環境騒音の違いが音声認識に与える影響
- 上顎義歯の大連結子の走行が発語機能に及ぼす影響
- 東芝の音声認識・合成ソフトウエアの紹介
- パソコン用文音声合成ソフトウェアエンジンの開発
- 文音声変換ソフトのための音韻列生成方式の開発 : 音韻列生成方式と開発環境
- 合成処理時間が設定可能な文音声合成ソフト
- 音声処理モジュールのプログラミングインタフェースとアプリケーション開発環境
- 音声合成/認識APIと応用ソフト開発環境の動向
- 音声セグメントベース規則合成方式を用いた英単語音声合成LSIの開発
- 直交化残差方式による文音声合成の検討
- 音声入出力のタッチパネルを用いたマルチモーダル対話システムの試作
- 音声言語インタフェースのための情報処理学会試行標準
- 音声認識読み記号および音声関連ソフトウエアに係わる用語の試行標準案
- 音声言語情報処理に関する情報処理学会の試行標準策定活動
- 音声言語情報処理に関する情報処理学会の試行標準策定活動
- 複合音響特徴平面に基づく音声認識のための局所特徴抽出法(音声情報処理 : 現状と将来技術論文特集)
- マルチモーダルUIにおけるモダリティ制御統一のためのモデル化手法 (音声言語情報処理)
- ラピッドプロトタイピングツールMuseのCASEへの適用(マルチモーダルIF (3),「マルチモーダルと音声HI」およびヒューマンインタフェース/音声言語情報処理一般)
- ラピッドプロトタイピングツールMuseのCASEへの適用
- SIG-SLP/SIG-NL合同セッションここまでできるぞ音声/言語処理技術 : 音声編
- ここまでできるぞ音声/言語処理技術 : 音声編
- ラピッドプロトタイピングツールMuseの開発
- 調音器官の動きに基づき音韻継続時間長制御
- オブジェクト指向モデリングおよび設計を用いたラピッドプロトタイピングツールMuseの開発
- ラピッドプロトタイピングツールMuse(1)
- 社会情報システムのためのラピッドプロトタイピングツールMuseの開発
- 社会情報システムのためのラピッドプロトタイピングツールMuseの開発
- マルチモーダルUIとラピッドプロトタイピング
- マルチモーダルUIとラピッドプロトタイピング
- マルチモーダルUIデザイン支援ツールの開発
- マルチーモーダル対話システムのためのUI設計支援ツール
- マルチモーダル対話システムMultiksDial
- マルチモ-ダル対話の社会情報システムへの応用 (ヒュ-マンインタフェ-ス)
- 音声入出力とタッチパネルを用いたマルチモーダル対話システムの評価
- KL展開と一般化確率降下法によるセグメント量子化の高速化
- 高速版SMQ/HMMによる不特定話者音声認識
- カテゴリごとの部分空間を埋め込んだニューラルネットワークによる不特定話者音声認識
- チェアサイドで補綴治療時の発語機能評価が可能な音声認識装置の開発
- 複合音響特徴平面(MAFP)に基づく音声特徴抽出
- 最小分類誤り学習による特徴選択型文字認識
- 最小分類誤り学習による特徴選択型文字認識
- 5. GUIからマルチモーダルUI(MUI)に向けて (<解説> 音声言語情報処理の現状と研究課題)
- パネル討論「マルチメディアを斬る!」[10] マルチメディアを快適に使いこなすために
- インタラクティブなシステムの評価をどのように考えていくか
- 音声認識技術を用いた操業操船支援システム
- SMQ/HMM方式に基づく不特定話者大語彙単語認識
- 不特定話者の連続音声認識に対する調音パラメ-タの有効性--母音認識実験による検討
- ノイズキャンセラを用いた音声認識の性能評価
- SMQ/HMM方式に基づく不特定話者大語い単語認識
- 直交化音声セグメント符号帳を用いたHMMに基づく不特定話者単語認識
- K-L変換に基づく話者適応と高速辞書照合を用いた大語い単語音声認識 (新しい音声処理技術特集)
- 留学生による日本語発話におけるモーラタイミングの音声セグメント技術による評価(リズムとタイミング)