ディジタル蝸牛モデルとHMMを用いた話者識別
スポンサーリンク
概要
- 論文の詳細を見る
単語音声を利用した話者識別では経時変化により識別率が低下する。この要因として、発声時間の変化や、各発声における音素の時間長の変化が考えられる。本報告では、ディジタル蝸牛モデルから得られた特徴パラメータを、HMM(Hidden Markov Model)を利用して発声時間の正規化を行なうことで経時変化の吸収を試みた。18人の話者識別実験の結果、平均識別率は、ディジタル蝸牛モデルのみで75.67%だったものが、ディジタル蝸牛モデル出力をHMMによって正規化することによって83.47%と、7.80%の改善ができた。さらに、各音素の位置を利用して、より個人差の大きい音素に重み付けをし、ディジタル蝸牛モデルからの出力を段方向に差分をとった話者識別も試みた。これらの対策を加えることで87.78%とさらに4.31%の改善ができることが明らかになった。
- 1998-03-05
著者
関連論文
- 難視性パターンを用いた情報付加手法における攻撃耐性の改善(マルチメディア情報ハイディング技術とその応用論文)
- 難視性パターンを用いた情報付加手法の印刷・回転耐性の実現
- 難視性を用いた印刷物への情報付加に関する検討
- A-16-17 ライトによる色相変化特徴量を利用したネイルアートシミュレーション(A-16.マルチメディア・仮想環境基礎,一般セッション)
- I-010 MPEG-2/H.264変換におけるMBAFFモード決定手法に関する検討(I分野:グラフィクス・画像)
- D-11-27 MPEG-2/H.264変換における符号化モード選択方式に関する一検討(D-11.画像工学A(画像基礎・符号化),一般講演)
- D-11-65 TV会議用マルチ画面変換におけるDCT領域での逆動き補償の検討(D-11.画像工学A)
- D-11-29 JPEG2000における歪み量指定型符号量制御方式に関する一検討(D-11.画像工学A(画像基礎・符号化),一般講演)
- D-11-2 階層型秘密分散法におけるデータサイズ削減方法に関する一検討(D-11.画像工学A(画像基礎・符号化),一般講演)
- サッカー映像のシーンナビゲーションに関する検討
- D-12-48 主観評価を考慮した類似顔画像判定法に関する検討(D-12. パターン認識・メディア理解, 情報・システム2)
- D-12-174 サッカー映像におけるシーン分類に関する検討(D-12. パターン認識・メディア理解B)
- D-12-166 MPEG圧縮された映画のショット分類とシーン分割(D-12. パターン認識・メディア理解B)
- D-12-55 蓄積容量の限られた顔画像認証装置における辞書更新法(D-12.パターン認識・メディア理解A)
- D-11-53 MPEGビデオのビットレート変換トランスコーダに関する一検討(D-11.画像工学A)
- 予測参照画像を順次走査変換する飛越し走査画像符号化手法
- 参照画像のみ順次走査とする動画像符号化の順次走査再生
- 参照画像を順次走査化する飛越し走査画像符号化手法
- 飛越し走査での再生を前提とした順次走査画像符号化手法(デジタル放送・伝送方式)
- 14-7 オンライン画質評価に関する考察
- ポリゴン削減モデルのインタラクティブ画質評価
- B-11-7 HDTV映像を対象としたFR型メディアレイヤ映像品質客観評価法の有効性検証(B-11.コミュニケーションクオリティ,一般セッション)
- B-18-2 非利き手による筆記のデータに基づく署名照合について(B-18.バイオメトリクス・セキュリティ,一般セッション)
- BT-7-5 筆記時の把持位置・把持力に含まれる個人性に関する一検討(BT-7.若手研究者によるバイオメトリックセキュリティの新提案,チュートリアルセッション,ソサイエティ企画)
- 難視性パターンを用いた印刷文書に対する情報付加手法の提案
- 難視性パターンを用いた情報付加手法の印刷・回転耐性の実現
- D-11-16 JPEG 2000タイルサイズ変換トランスコーダの高速化(D-11.画像工学A)
- D-12-27 携帯電話利用時の位置ずれにロバストなマルチチャンネル口唇動作抽出センサ(D-12.パターン認識・メディア理解,一般セッション)
- AS-3-5 知覚されにくい高周波雑音付加によるLWSの埋め込みビット量の改善について(AS-3.イメージメディアクオリティの基盤技術,シンポジウムセッション)
- D-11-30 手書き文字の角度変化量を考慮した時系列筆記データの間引き手法に関する研究(D-11.画像工学,一般セッション)
- D-14-9 非線形処理を利用する二話者同時発話音声に対するピッチ抽出法(D-14. 音声,一般セッション)
- 不適合な動きベクトルを用いる動画像への情報埋込方法とその抽出方法について(研究速報,映像処理応用・システム,画像符号化・映像メディア処理レター)
- 1. 総論(イメージメディアの美しさを支える基盤技術)
- D-14-12 マルチモーダル音声認識のための顔側面用口唇動作センサについて(D-14. 音声,一般セッション)
- A-7-6 JPEG画像へのファイルサイズ不変の透かし情報埋め込み法の提案(A-7. 情報セキュリティ,一般セッション)
- E-054 画像特徴量誤りによる視聴覚融合音声認識の認識率低下の抑制法(E分野:自然言語・音声・音楽)
- 中国語発音評価に適したHMMによる音声認識系の検討(聴覚・音声・言語とその障害,一般)
- B-18-4 日本語署名におけるDPマッチング時の分割方法に関する検討(B-18.バイオメトリクス・セキュリティ,一般講演)
- B-18-3 長期間かつ大規模な署名データベースにおけるHMM署名認識(B-18.バイオメトリクス・セキュリティ,一般講演)
- D-11-39 色弁別空間領域を考慮した電子透かしのための量子化点の提案(D-11.画像工学A(画像基礎・符号化),一般講演)
- D-15-6 e-learningコンテンツに対する昼・夜間部学生の要求の違いについて(D-15.教育工学,一般講演)
- D-14-16 電子透かしを埋め込んだ音楽の主観的音質評価(D-14.音声・聴覚,一般講演)
- D-14-5 マルチモーダル音声認識のための繰り返し認識法の検討(D-14.音声・聴覚,一般講演)
- D-14-3 ネットワーク文法の遷移確率を考慮したキーワードの湧き出し誤りの抑圧(D-14.音声・聴覚,一般講演)
- D-14-2 2種類のピッチ追従型くし形フィルタを用いた音声分離について(D-14.音声・聴覚,一般講演)
- フレームレート変換によるLCD受像画質の総合改善
- D-11-31 適応型エンファシス符号化のリアルタイム画質評価(D-11.画像工学A)
- 位相-振幅領域確率密度分布測定器による帯域制限されたディジタルベースバンド信号の識別点決定法
- 時間-振幅領域における確率密度分布測定と帯域制限されたディジタル伝送システムへの応用について
- 航空機酸素マスク装着時の音声認識に対する修正CMN法の適用とその有効性について
- H-035 コンシューマビデオのジャンル分類方式に関する検討(画像認識・メディア理解,一般論文)
- マルチパルス音源とLPCケプストラムを用いた話者識別
- AS-10-4 最適でない動きベクトルを用いた時のエントロピーと画質変化に関する検討(AS-10.イメージメディアクォリティ,シンポジウム)
- 中国語発音評価に適したHMMによる音声認識系の検討
- A-4-14 手書き文字画像の表示に必要な空間分解能の検討(A-4.信号処理,一般講演)
- LG_001 口唇動作抽出ヘッドセットの開発と単語認識への応用(G分野:音声・音楽)
- AS-5-1 映像の動きとMotion Sharpening現象効果の関係の明確化(AS-5.イメージメディアクウォリティ,シンポジウム)
- A-17-16 解像度が変化した時のナンバープレートの認識について(A-17.ITS,一般講演)
- A-4-9 適応型ランニングスペクトルフィルタの提案(A-4.信号処理,基礎・境界)
- D-14-23 単語音声に対するマルチパルス音源情報による話者識別の検討(D-14. 音声・聴覚, 情報・システム1)
- D-14-21 ピッチ追従型くし形フィルタを用いる音声認識について(D-14. 音声・聴覚, 情報・システム1)
- D-14-19 ネットワーク文法の遷移確率を考慮したキーワードの湧き出し誤りの抑圧(D-14. 音声・聴覚, 情報・システム1)
- D-14-18 キーワード抽出における言語的制約を考慮した湧き出し誤り削減法(D-14. 音声・聴覚, 情報・システム1)
- D-14-14 口唇動画像と音声によるSNR推定とその視聴覚融合音声認識への応用(D-14. 音声・聴覚, 情報・システム1)
- D-12-95 Gaborウェーブレットによる表情変化にロバストな顔認証(D-12. パターン認識・メディア理解, 情報・システム2)
- D-11-41 画枠の大きさと視距離が動画像の主観評価に及ぼす影響(D-11. 画像工学A(画像基礎・符号化), 情報・システム2)
- AS-7-5 小画面の静止画に対する主観画質に関する一考察(AS-7. イメージメディアクウォリティ, 基礎・境界)
- B-18-4 楷書署名を意識した署名認証方式の提案(B-18. バイオメトリクス・セキュリティ, 通信2)
- B-18-1 SVMを用いる顔位置検出のための最適な色空間の検討(B-18. バイオメトリクス・セキュリティ, 通信2)
- 動画像からの動きオブジェクト検出と符号化主観画質改善への活用
- 動作のバイオメトリクス
- バイオメトリクス認証技術の動向とセキュリティシステムへの応用(バイオメトリクス)
- バイオメトリクス
- HMMによる講義音声からのキーワード抽出の検討とその改善(聴覚・音声・言語とその障害)
- D-12-61 正面および側面から撮影した顔画像を用いた母音認識(D-12.パターン認識・メディア理解A)
- D-11-34 LCDの画面解像度と主観画質の関係(D-11.画像工学A)
- 視聴覚融合単語認識改善のための音響HMMへの視覚情報による重み付け(聴覚・音声/一般)
- D-12-23 OCR による文字情報抽出を意識した画像ファイル処理について
- 講義ビデオのアクセシビリティを改善したブラウザとその評価
- D-11-146 三次元顔モデルの情報量削減に伴う劣化について
- D-15-23 遠隔教育のためのビデオコンテンツ配信における問題点の検討
- D-14-5 二人の会話音声の発話部における話者分離について
- D-14-4 改良したディジタル蝸牛フィルタによる話者識別
- D-7-24 喉頭筋の活動筋電位による電気式人工喉頭のピッチ制御に関する考察
- 人間の視覚特性を総合的に考慮したAWSNRの提案(ヒューマンインフォメーション)
- D-14-15 視聴覚融合単語認識のためのHMMのマルチストリーム化
- 発生符号量で動きベクトルを決定するMPEG-2動き推定手法
- SD-3-2 雑音環境下の単語音声認識のための視聴覚融合HMMについて
- D-5-4 音声ガイドを意識したHTMLドキュメントの再構成法
- 参照画像を順次走査化する飛越し走査画像符号化手法
- 参照画像を順次走査化する飛越し走査画像符号化手法
- 参照画像を順次走査化する飛越し走査画像符号化手法
- A-7-2 盗聴に抵抗するための形態素解析を用いた文書暗号化の提案
- D-14-8 DSPによるディジタル蝸牛の実装化と音声認識への応用
- D-14-7 唇情報を併用した雑音環境下の単語音声認識について
- 14-6 画像の局所的な複雑さと明るさを考慮したAWSNRの提案(第2報)
- 14-5 3種類の筆記情報を用いる動的な署名照合
- ペンの傾きを利用した署名照合方式の改良
- 雑音環境下での母音認識のための唇形状抽出
- テンプレートを利用したオブジェクトの形状分類と主観的な形状分類との関係