話し言葉音声認識における話者間の認識率変動要因の解析

概要

論文の詳細を見る
話し言葉音声認識の認識性能は十分ではなく, また話し言葉の音声認識における単語正解精度低下の要因はあまり分かっていない.そこで, 日本語話し言葉コーパスの多数の話者を対象に音声認識実験を行い, 話者間での単語正解精度変動の分布の解析を行った.個人差の主たる要因が発話速度, 未知語率および言い直し頻度であることを明らかにした.また, 教師無し話者適応化は単語正解精度の向上に効果的に働くが, 適応化を行った後も発話速度の影響は減少しないことを示した.
2001-12-14

著者

篠崎隆宏
東京工業大学大学院情報理工学研究科計算工学専攻
篠崎隆宏
東京工業大学
古井貞熙
東京工業大学

関連論文

年齢推定のための音声特徴量および推定器の検討 (音声)
F_0パターン生成モデルのための数量化I類の平均値置換による話者適応法の検討(感情音声,韻律,声質,音声生成・知覚,脳機能,一般)
高精度音声認識のための教師なしクロスバリデーションおよび集合適応法の提案(認識)
話者認識研究の現状と展望
東京工業大学における質問応答システムの研究概要(第8回音声言語シンポジウム)
連続音声認識のためのネットワーク構造を用いた効率的探索手法
話し言葉音声の音響的・言語的特徴の分析
局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出(一般,First Person Visionのための認識・理解)
音響モデル学習のための相対エントロピーを用いた学習文選択
年齢推定のための音声特徴量および推定器の検討(音声・言語・音響教育,一般)
音声の有無による違いを考慮した Home video 簡易編集
マルチストリーム話者照合におけるブースティングに基づく重み最適化法の検討(ポスターセッション)(第6回音声言語シンポジウム)
マルチストリーム話者照合におけるブースティングに基づく重み最適化法の検討(ポスターセッション)(第6回音声言語シンポジウム)
マルチストリーム話者照合におけるブースティングに基づく重み最適化法の検討(ポスターセッション)(第6回音声言語シンポジウム)
最適な最小値独立置換族の構成
会議音声認識のためのスペクトル減算に基づくオンライン音源分離(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出(一般,First Person Visionのための認識・理解)
局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出(一般,First Person Visionのための認識・理解)
頑健なパラメタ推定のためのAggregated EM法の提案と評価(特徴量・音響モデル,第9回音声言語シンポジウム)
頑健なパラメタ推定のためのAggregated EM法の提案と評価(特徴量・音響モデル,第9回音声言語シンポジウム)
A Polynomial Time Sampling Algorithm for an Optimal Family of Min-Wise Independent Permutations (Models of Computation and Algorithms)
SIFT混合ガウス分布を用いた一般物体認識のためのマルチカーネル学習(テーマセッション,コンピュータビジョンとパターン認識のための機械学習と最適化,一般)
SIFT混合ガウス分布を用いた一般物体認識のためのマルチカーネル学習(テーマセッション,コンピュータビジョンとパターン認識のための機械学習と最適化,一般)
WFST駆動音声認識デコーダの最近の評価結果(デコーダ,第11回音声言語シンポジウム)
WFST駆動音声認識デコーダの最近の評価結果(デコーダ,第11回音声言語シンポジウム)
ニュース音声を対象とした大語彙連続音声認識と話題抽出
単語trigramを用いた大語彙連続音声認識
音声の有無による違いを考慮したHome video簡易編集
科学技術振興調整費開放的融合研究推進制度 : (小特集:) : 大規模コーパスに基づく『話し言葉工学』の構築
会議音声認識のためのスペクトル減算に基づくオンライン音源分離(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
ニュース音声を対象とした言語モデルと話題抽出の検討
ニュース音声認識のための言語モデルと音響モデルの検討
音声認識のための複数の認識器を利用した能動学習(音響モデル,第11回音声言語シンポジウム)
音声認識のための複数の認識器を利用した能動学習
講義音声認識における講義スライド情報の利用(第8回音声言語シンポジウム)
ICASSP2007報告(研究動向を探るセッション)
頑健なパラメタ推定のためのクロスバリデーションEM法の提案(第8回音声言語シンポジウム)
頑健なパラメタ推定のためのクロスバリデーションEM法の提案(Session-5 特徴量・音響モデル,第8回音声言語シンポジウム)
頑健なパラメタ推定のためのクロスバリデーションEM法の提案(Session-5 特徴量・音響モデル,第8回音声言語シンポジウム)
頑健なパラメタ推定のためのクロスバリデーションEM法の提案
マルチモーダル音声認識におけるストリーム重み係数最適化の検討(ポスターセッション)(第5回音声言語シンポジウム)
横顔の動画像情報を用いたマルチモーダル音声認識(自然言語情報処理研究会と一部合同開催 : マルチモーダル・音声インタフェース関連)
周波数帯域ごとの重みつき尤度を用いた雑音に頑健な音声認識(耐雑音)(第5回音声言語シンポジウム)
周波数帯域ごとの重みつき尤度を用いた雑音に頑健な音声認識(第5回音声言語シンポジウム : 耐雑音)
周波数帯域ごとの重みつき尤度を用いた雑音に頑健な音声認識(第5回音声言語シンポジウム : 耐雑音)
話し言葉音声の認識を目指して
話し言葉音声の認識を目指して
話し言葉音声の認識を目指して
頑健な区間検出とモデル適応に基づく雑音下音声認識(雑音下音声処理)(第6回音声言語シンポジウム)
頑健な区間検出とモデル適応に基づく雑音下音声認識(雑音下音声処理)(第6回音声言語シンポジウム)
HMM音声合成における自然性と個人性に優れた韻律モデル適応法の検討
何かが欠けている音声認識研究(第11回音声言語シンポジウム)
何かが欠けている音声認識研究(第11回音声言語シンポジウム)
頑健なパラメタ推定のためのAggregated EM法の提案と評価(特徴量・音響モデル,第9回音声言語シンポジウム)
話し言葉コーパスを用いた音声認識の検討
自由発話を対象とした対話システムの構築と評価
音声自動要約を利用した講演速聞きシステムの検討(自然言語情報処理研究会と一部合同開催 : NL・SLP合同開催 : 音声対話1)
教師なしクロスバリデーション適応法の諸条件における評価
教師なしクロスバリデーション適応法の諸条件における評価
効率的なクロスバリデーションに基づく混合ガウス分布の最適化法とその拡張(音響モデル)
音響モデルのアンサンブル学習
効率的なクロスバリデーション尤度評価に基づく混合ガウス分布の最適化(音響・音韻モデル)
5X-8 User identification using Time-of-Flight camera image streams
発話速度変動を考慮した隠れモードHMMによる音声のモデル化 : 音声認識におけるベイジアンネットの応用(聴覚・音声/一般)
大語彙連続音声認識のための言語的音響的属性に基づく単語単位の最適化
言語モデルの教師なしバッチ型話題適応
言語モデルのバッチ型教師なし適応化法
言語モデルのバッチ型教師なし適応化法
雑音に頑健な音声認識のための韻律情報の利用(自然言語情報処理研究会と一部合同開催 : 自動車内音声対話関連)
ハフ変換による雑音に頑健な基本周波数抽出法
純粋関数型言語を用いた超コンパクト音声認識デコーダの開発
話し言葉音声認識における話者間の認識率変動要因の解析
マルチバンド音声認識のためのLDAに基づく帯域重み推定手法
HMM音声合成に基づいた話者適応可能な多言語音声合成法 : 開発と評価(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
HMM音声合成に基づいた話者適応可能な多言語音声合成法 : 開発と評価(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
英語ニュース音声を対象とした音声自動要約
英語ニュース音声を対象とした音声自動要約
係り受けSCFGに基づく音声自動要約法の改善
言語モデルのバッチ型教師なし適応化法
日本語話し言葉コーパスを用いた講演音声認識(音声言語情報処理とその応用)
話し言葉音声認識における認識性能の個人差の解析
話し言葉音声認識における話者間の認識率変動要因の解析
話し言葉音声認識における話者間の認識率変動要因の解析
話し言葉認識における決定木を用いた誤り要因の分析
話し言葉音声認識のためのNグラム言語モデルの枠組みにおける種々の方法の検討(ポスターセッション)(第5回音声言語シンポジウム)
Slice Chain Max-Sumアルゴリズムによるタンパク質のポテンシャルエネルギー最小化に関する研究
軽量な画像特徴量を用いたマルチモーダル音声認識(音声、聴覚,学生論文)
3-2 第4世代の音声認識を目指して(3.人間に関係した情報処理,人間を理解するためのICT技術-人間を対象としたセンシング・情報処理からその応用まで-)
Kinectとパーティクルフィルタを用いたHMM手話認識手法の検討(テーマセッション,時系列パターン認識)
Kinectとパーティクルフィルタを用いたHMM手話認識手法の検討(テーマセッション,時系列パターン認識)
日本手話対話と日本語音声対話における話者交替現象の比較分析(福祉情報工学一般,ライフイノベーションのための介護・リハビリ・生活支援技術)
隠れマルコフモデルを用いた眼電位認識の研究(一般セッション,時系列パターン認識)
隠れマルコフモデルを用いた眼電位認識の研究(一般セッション,時系列パターン認識)
数量化I類によるF_0パターン生成の制御要因に関する検討
言語モデルと音響モデルを利用したアクセント句境界の自動推定
語尾伸ばし発声による3次元直接操作インタフェース
「音声認識」は今後こうなる!
1.音声研究の始まり : 音声分野(〈特集〉-音響学における20世紀の成果と21世紀に残された課題-)
発話中の一部区間を用いた感情認識(研究速報)
SC1-5 S-CATにおける音響特徴量とSVRによるスコア推定(特別セッション音声認識技術を応用したコンピュータ自動採点日本語スピーキングテストの開発)

話し言葉音声認識における話者間の認識率変動要因の解析

スポンサーリンク

概要

著者

関連論文

スポンサーリンク