中国語連続音声認識における音素的セグメンテーション
スポンサーリンク
概要
- 論文の詳細を見る
An algorithm is proposed in this paper for phonemic segmentation to improve the performance of a continuous Mandarin speech recognition systems. The coefficient of time variation of spectral envelope and the coefficient of time. variation of zero order cepstrum are extracted using Unbiased Estimation of Log Spectrum (UELS). The parameter curves based on these coefficients are very smooth, therefore, the relation between parameter's maximum values and phoneme boundaries are easy to be found. By these smooth curves, the maximum value can be used as a criterion to delimit phonemes, rather than the threshold that is used in conventional systems, hence it is possible to get precise segmentation results. 300 sentences were used for an experiment, and the results show the system performance is better than traditional methods. The average phoneme-deletion rate is 1.3%, average phoneme-insertion rate is 3%. For evaluation, the segmentation results were used for a phoneme recognition experiment. 95.5% consonants recognition rate and 92.5% vowel recognition rate were obtained. The results show the approach is highly effective.
- 社団法人日本音響学会の論文
著者
-
今井 聖
千葉工業大学工学部
-
古市 千枝子
桐蔭横浜大学工学部
-
力游 胡
Precision and Intelligence Laboratory, Tokyo Institute of Technology
-
今井 聖
Precision and Intelligence Laboratory, Tokyo Institute of Technology
-
古市 千枝子
Faculty of Engineering, Toin University of Yokohama
-
力游 胡
Precision And Intelligence Laboratory Tokyo Institute Of Technology
関連論文
- 適応メルケプストラム分析を利用した音声符号化とその評価
- ML基準パラメータ系列生成に基づく半連続HMMによる雑音音声認識
- 音声認識におけるルールベース法による話者独立音素セグメンテーション
- 音素セグメンテーションに基づく統計的音素セグメントモデルによる音声認識
- 音声認識における話者独立音素セグメンテーション
- IFスペクトログラム : 音声信号の時間周波数表現の一手法
- IFスペクトログラム : 音声信号の時間周波数表現の一手法
- 瞬時周波数に基づく雑音環境下でのピッチ推定
- RBFネットワークのハイブリッド学習アルゴリズム
- 改良DFT-MUSIC法を用いた低SNR環境における瞬時周波数の推定
- 音声信号の瞬時周波数に基づく振幅スペクトル表現
- 低SNR環境下における瞬時周波数の推定
- 瞬時周波数に基づく雑音環境下でのピッチ推定
- 音声信号の非線形時間軸伸縮と瞬時周波数に基づく倍音推定
- 雑音劣化音声の一般化ケプストラムモデル化における事前情報の利用
- 非直線周波数目盛における音声の一般化対数スペクトル包絡とそのモデル
- 体系的な意味カテゴリーで記述された係り受け関係を利用する日本語文音声認識
- 並列音素ラベリング (PPL) 方式による話者独立単語音声認識システム
- コンテキスト独立な音素認識により得られた信頼度付き音素ラティスを用いる単語音声認識
- 統計的音素セグメントモデルによる日本語音声認識に関する研究(学位論文の紹介)
- 複数のHMMセットを選択的に用いる話者独立音声認識
- 音韻環境依存型音素セグメントHMMによる音声認識
- 静的・動的パラメータを用いた英語連続音声の音素セグメンテーションシステム
- 音韻環境依存の音素レファレンスパターンを選択的に用いた英語連続音声中の音素認識
- [フェロー記念講演]メルケプストラム音声信号処理(音響と音声処理,音声強調,ロバスト音声認識)
- [フェロー記念講演]メルケプストラム音声信号処理(音響と音声処理,音声強調,ロバスト音声認識)
- メル一般化ケプストラム分析に基づくCELP音声符号化
- メル一般化ケプストラム係数に基づく音声のスペクトル表現とその諸特性
- 動的特徴を用いたHMMからの音声パラメータ生成アルゴリズム
- HMMを用いた音声合成における話者適応による声質変換
- 中国語連続音声認識における音素的セグメンテーション
- 動的特徴を用いたHMMに基づく音声合成
- MA予測を用いたメル一般化ケプストラムの量子化
- ML基準パラメータ系列生成に基づくHMMの雑音環境への適応
- 意味解析と最適探索を利用した中国語文音声認識
- HMMを用いた音声合成における音素モデルの検討
- 大語彙中国語連続音声認識の言語処理システム
- メルケプストラムをパラメータとするHMMに基づく音声合成
- HMMからの音声パラメータ生成アルゴリズム
- HMMを用いた音声合成法に関する検討
- メル一般化ケプストラムパラメータの音素認識における評価
- 特定話者任意語い連続音声の音素認識
- 多様な音韻環境における音素的単位のセグメンテ-ション (新しい音声処理技術特集)
- 連続音声の音素的単位へのセグメンテ-ション
- 中国語連続音声の4声認識
- 対数スペクトルの不偏推定
- 音声の規則合成のためのメルケプストラムCV音節デ-タファイルの自動作成
- 高品質音声合成のためのインパルス列等価音源
- CV音節のメルケプストラムパラメ-タの接続に基づく音声の規則合成
- 音声合成のためのメル対数スペクトル近似(MLSA)フィルタ
- 対数振幅特性近似フィルタを利用する楽器音の合成(技術談話室)
- メル一般化ケプストラムに基づくCELP符号化系とその評価
- メル一般化ケプストラム分析に基づくCELP符号化
- メル一般化ケプストラムによる音声のスペクトル表現とその諸特性
- メル一般化ケプストラムに基づく音声符号化の検討
- 低ビットレート音声符号化のためのメルケプストラム係数のベクトル量子化
- メルケプストラムをパラメータとするCELP符号化系
- 中国語連続音声の声調認識
- 中国語連続音声の四声認識