実況・対談における発声変形を考慮した音響モデルの検討(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では, 放送音声の認識率の低下の要因の一つである発話スタイルの影響を改善するため, 学習音声中の発声変形頻度を基準とする発声変形用音響モデルの導入法を検討した.発声変形を取り扱う単位として, トライフォン単位と単語単位, およびこれらの単位間でHMMを共有する場合と独立したHMMを用いる場合を取り上げ, 次の二つのタスクにおいて, 誤認識単語の削減効果を比較した.第一のタスクは, メタデータ制作を目的としたJリーグ中継の実況音声の認識であり, 絶叫発話と話速の速い部分を対象とし, 発声変形の単位を単語としてHMMを共有した場合に, キーワード誤りの15%が削減された.第二のタスクはニュース番組中の対談部分の認識であり, 話速の速い部分に起こる発声変形を対象とした.認識実験の結果, 発声変形の単位を単語とし, HMMを共有しない場合が, 認識率と探索空間の面から有利であることが確認された.一方, 発声変形とみなす単位を単語とした場合の実験結果から, 発声変形に単語依存性があることが確認され, HMMを共有した場合に認識誤りの10%が削減された.
- 社団法人情報処理学会の論文
- 2005-12-21
著者
-
小林 彰夫
NHK放送技術研究所
-
本間 真一
NHK放送技術研究所
-
佐藤 庄衛
NHK放送技術研究所
-
今井 亨
NHK放送技術研究所
-
尾上 和穂
NHK放送技術研究所
-
尾関 和彦
電気通信大学情報工学専攻
-
尾上 和穂
NHK技研
関連論文
- 単語誤り最小化に基づく識別的リスコアリングによるニュース音声認識(音声,聴覚)
- 生字幕制作のための音声認識
- コンテンツ活用のための報道番組自動書き起こしシステム (システム開発論文特集)
- ダイレクト方式とリスピーク方式の音声認識を併用したリアルタイム字幕制作システム
- 単語誤り最小化に基づく識別的リスコアリングによる音声認識(ポスターセッション,第10回音声言語シンポジウム)
- 放送用リアルタイム字幕制作のための音声認識技術の改善
- 探索空間のエントロピーに基づく特徴量ストリームの動的な統合(音声認識・識別,第9回音声言語シンポジウム)
- 帯域フィルタ出力の時間変化特徴量を利用した音声認識(音声,聴覚)
- 可変長サブワードHMMに基づく未知語処理を導入した音声認識(第8回音声言語シンポジウム)
- 可変長サブワードHMMに基づく未知語処理を導入した音声認識(Session-6 音声認識,第8回音声言語シンポジウム)
- D-14-8 累積音素尤度によるオンライン発話検出と男女音声認識(D-14.音声・聴覚,一般講演)
- 帯域フィルタ出力の時間変化特徴量を利用したニュース音声認識(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 実況・対談における発声変形を考慮した音響モデルの検討(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- コンテンツ活用のための報道番組自動書き起こしシステム(音声システム,システム開発論文)
- 複数の信頼度尺度を統合した音声認識(ポスターセッション)(第6回音声言語シンポジウム)
- 12-3 21GHz帯衛星放送波降雨減衰測定システムの開発
- 単語誤り最小化に基づく識別的リスコアリングによるニュース音声認識
- 中継などの様々な音響下でのニュース音声認識
- 字幕自動監視装置
- 言い換えを利用したリスピーク方式によるスポーツ中継のリアルタイム字幕制作(音声,聴覚)
- 生字幕放送のためのリスピーク方式音声認識 (音声認識による字幕サービス 特集号)
- 生字幕放送のための音声認識 : システムの概要とリスピークの効果
- 連続音声認識における動的特徴量の高精度な計算法
- 音声認識における高精度な動的特徴量計算法の提案
- 音声認識における高精度な動的特徴量計算法の提案
- 音声認識における高精度な動的特徴量計算法の提案
- メタデータ制作・活用システムの試作
- メタデータ制作・活用システムの試作(高精細画像の処理・表示, 及び一般)
- 音素情報を利用したBICに基づくオンライン話者識別
- コンテンツ活用のための報道番組自動書き起こしシステム
- 単語誤り最小化に基づく識別的リスコアリングによる音声認識(ポスターセッション,第10回音声言語シンポジウム)
- 単語誤り最小化に基づく識別的リスコアリングによる音声認識(ポスターセッション,第10回音声言語シンポジウム)
- 探索空間のエントロピーに基づく特徴量ストリームの動的な統合(音声認識・識別,第9回音声言語シンポジウム)
- 探索空間のエントロピーに基づく特徴量ストリームの動的な統合(音声認識・識別,第9回音声言語シンポジウム)
- 可変長サブワードHMMに基づく未知語処理を導入した音声認識(Session-6 音声認識,第8回音声言語シンポジウム)
- 帯域フィルタ出力の時間変化特徴量を利用したニュース音声認識(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 音声認識を利用した放送用ニュース字幕制作システム
- ニュース解説を対象にした音声認識の検討-言語的特徴の利用の試み-
- 連続音声認識のためのスタックデコーダの作成
- ニュース音声認識システム(音声処理技術のデモの紹介)
- 2000-SLP-31-8 ニュースの直前原稿を利用した音声認識誤りの自動検出法
- ニュース音声認識のための言語モデルの動的適応化
- ニュース音声認識における直前原稿の利用法
- 気象レーダデータを用いた21GHz帯マルチビーム衛星放送の受信時間率の検討
- ニュース音声認識における直前原稿を利用した認識性能の改善
- ニュース音声認識における直前原稿を利用した認識性能の改善
- ニュース音声認識における直前原稿を利用した認識性能の改善
- 2)算術符号による画像圧縮とマルチキャスト/IP通信を用いた選挙速報システムKINDSの開発と参議院選挙報道での運用(放送現業研究会)
- 算術符号による画像圧縮とマルチキャスト/IP通信を用いた選挙速報システムKINDSの開発と参議院選挙報道での運用
- 話題混合モデルによる放送ニュースからの話題抽出
- 帯域フィルタ出力の時間変化特徴量を利用したニュース音声認識(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 実況・対談における発声変形を考慮した音響モデルの検討(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- 実況・対談における発声変形を考慮した音響モデルの検討(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- 音響尤度補正による雑音環境下の音声認識の改善
- 雑音モデルに基づく補正音響尤度を用いた音声認識(雑音下音声処理)(第6回音声言語シンポジウム)
- 複数の信頼度尺度を統合した音声認識(ポスターセッション)(第6回音声言語シンポジウム)
- 雑音モデルに基づく補正音響尤度を用いた音声認識(雑音下音声処理)(第6回音声言語シンポジウム)
- 複数の信頼度尺度を統合した音声認識(ポスターセッション)(第6回音声言語シンポジウム)
- 雑音モデルに基づく補正音響尤度を用いた音声認識(雑音下音声処理)(第6回音声言語シンポジウム)
- 短いフレーム間隔による連続音声認識の検討
- 解説音声認識のための言語/音響モデルの適応化
- 講演スタイルの解説番組を対象にした音声認識の検討
- 講演スタイルの解説番組を対象にした音声認識の検討
- スポーツニュースを対象とした音声認識の検討
- 口語表現の特徴を利用した言語モデルの検討
- ニュース解説における発話の分析と認識率改善の試み
- ニュース解説を対象にした音声認識の検討
- ニュース解説を対象にした音声認識の検討
- ニュース解説を対象にした音声認識の検討
- ニュース音声認識のための1パストライグラムデコーダの検討
- クロスワード・トライフォンの検討 -2パスデコーダの第1パスでの実装-
- ニュース音声認識のための時期依存言語モデル (音声言語情報処理)
- 認識結果早期確定のための逐次2パスデコーダ
- 音声認識によるリアルタイム字幕放送の進展
- 話題混合モデルによる放送ニュースからの話題抽出--音声認識の情報検索への応用 (ニュース音声字幕化特集)
- 放送直前原稿を利用した言語モデル作成方法--ニュース音声認識のための時期依存言語モデル (ニュース音声字幕化特集)
- 日本語ニュース音声認識用デコーダ
- 逐次2パスデコーダを用いたニュース音声認識システム
- 逐次2パスデコーダを用いたニュース音声認識システム
- 逐次2パスデコーダを用いたニュース音声認識システム
- ニュース音声認識のための未知語登録法の検討
- 音声/非音声区間切替による背景音抑圧処理法の検討(オーガナイズドセッション「人にやさしい音声情報処理」,福祉と音声処理,一般)
- 音声/非音声区間切替による背景音抑圧処理法の検討(オーガナイズドセッション「人にやさしい音声情報処理」,福祉と音声処理,一般)
- 単語誤り最小化に基づく識別的スコアリングによる音声認識 (音声処理特集号)
- 字幕制作のためのオンライン発話検出と男女並列音声認識 (音声処理特集号)
- リスク最小化学習に基づく識別的言語モデル
- 非負値行列因子分解に基づき動的適応したn-gram言語モデルによるパープレキシティ削減効果の分析
- マルチ音素クラスのベイズ情報量基準に基づくオンライン話者ダイアライゼーション
- ニュース番組自動字幕化のための音声認識システム(音声IF,「マルチモーダルと音声HI」およびヒューマンインタフェース/音声言語情報処理一般)
- ニュース番組自動字幕化のための音声認識システム
- 6-6 コンテンツ検索のための報道番組自動書き起こしシステム(第6部門 メディア処理3)
- 2-3 字幕自動監視装置の試作(第2部門 放送技術(放送現業))
- 7-7 音声認識によるニュース番組字幕化のためのクロストーク自動判定(第7部門 映像コンテンツ)
- 11-2 番組音声とリスピーク音声の自動認識を利用したニュース字幕制作実験(第11部門 放送現業)
- マルチ音素クラスのベイズ情報量基準に基づくオンライン話者ダイアライゼーション(音声,聴覚)
- 10-2 番組音声とリスピーク音声の認識を併用した生字幕制作の検討(第10部門 放送現業)
- 11-3 メタデータ制作・活用システムの試作(第11部門 放送現業)
- 9-1 メタデータ生成のための音声認識の改善(第9部門 メディア認識と評価I)
- 14-1 災害報道字幕制作のための音声認識(第14部門放送現業)
- 災害報道字幕制作のための言語モデル更新(安全・安心な社会を創る音声・聴覚情報処理,音声/福祉/ディジタル信号処理/聴覚一般)