最ゆう単語列逐次比較による音声認識結果の早期確定
スポンサーリンク
概要
- 論文の詳細を見る
連続音声認識において発話終了時に確定される最ゆう単語列は, 発話全体に対する最適な認識結果となっている.しかし, アプリケーションによっては発話から認識結果確定までの遅れ時間が実用上問題となることがあり, 発話中に認識結果を早期確定することが必要となる.探索アルゴリズムが1パスの場合には, 探索中に過去の単独経路を検出して認識結果を早期確定することが可能だが, マルチパスの場合に有効な早期確定手法は提案されていない.そこで本論文では, 発話中の最ゆう単語列を過去の最ゆう単語列と逐次比較することによって認識結果を早期確定する手法を提案し, これを1パスデコーダと2パスデコーダへ適用する.提案手法では, 最ゆう単語列を得る間隔と単語確定マージンを制御することにより, 認識率の劣化を抑えつつ単語確定までの遅れ時間の短縮を図る.放送ニュースの音声認識実験において, 提案手法は単語正解精度を有意に劣化させることなく, 1パスデコーダにおいて従来の単独経路検出法と同等の単語確定平均遅れ時間を示し, 2パスデコーダにおいても約0.5秒の単語確定平均遅れ時間で認識結果を早期確定することができた.
- 社団法人電子情報通信学会の論文
- 2001-09-01
著者
-
今井 亨
NHK放送技術研究所
-
安藤 彰男
NHK放送技術研究所
-
磯野 春雄
NHK放送技術研究所
-
安藤 彰男
工学院大学 情報学部
-
田中 英輝
NHK放送技術研究所
-
田中 英輝
Nhk放送技術研究所:(現在)atr音声翻訳通信研究所
-
安藤 彰男
NHK放送技術研究会
関連論文
- 単語誤り最小化に基づく識別的リスコアリングによるニュース音声認識(音声,聴覚)
- 高性能シリコンマイクロホンの周波数特性改善および動作電圧低減に向けた要素技術の開発
- シリコンマイクの高域特性の改善
- 放送用コンデンサ型シリコンマイクロホンの試作
- コンテンツ関連技術 放送における視聴覚障害者向け情報バリアフリー技術 (小特集 著作権とコンテンツ流通)
- リアルタイム字幕放送のための音声認識(福祉と音声処理,一般)
- コンテンツ活用のための報道番組自動書き起こしシステム (システム開発論文特集)
- 音楽聴取における音の臨場感と主観的な近さとの関係
- 音楽聴取における音の臨場感と主観的な近さとの関係 (応用音響)
- 音楽再生における音の臨場感と感動分類
- 音楽録音用超広帯域マイクロホンの開発
- ダイレクト方式とリスピーク方式の音声認識を併用したリアルタイム字幕制作システム
- 単語誤り最小化に基づく識別的リスコアリングによる音声認識(ポスターセッション,第10回音声言語シンポジウム)
- 放送用リアルタイム字幕制作のための音声認識技術の改善
- 探索空間のエントロピーに基づく特徴量ストリームの動的な統合(音声認識・識別,第9回音声言語シンポジウム)
- 帯域フィルタ出力の時間変化特徴量を利用した音声認識(音声,聴覚)
- 可変長サブワードHMMに基づく未知語処理を導入した音声認識(第8回音声言語シンポジウム)
- 可変長サブワードHMMに基づく未知語処理を導入した音声認識(Session-6 音声認識,第8回音声言語シンポジウム)
- D-14-8 累積音素尤度によるオンライン発話検出と男女音声認識(D-14.音声・聴覚,一般講演)
- 帯域フィルタ出力の時間変化特徴量を利用したニュース音声認識(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 実況・対談における発声変形を考慮した音響モデルの検討(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- コンテンツ活用のための報道番組自動書き起こしシステム(音声システム,システム開発論文)
- 複数の信頼度尺度を統合した音声認識(ポスターセッション)(第6回音声言語シンポジウム)
- 回折効果を利用したマイクロホンの超広帯域化の検討
- マイクロホンの超広帯域化の検討
- 音の仰角知覚弁別に関する検討
- 単語誤り最小化に基づく識別的リスコアリングによるニュース音声認識
- 単一指向性超広帯域マイクロホンのカプセル設計
- 超広帯域マイクロホンの単一指向性化(立体音響・トランスデューサ/一般)
- フレキシブルディスプレイ用スピーカの音響特性 : ひずみ特性を中心に(立体音響・トランスデューサ/一般)
- 中継などの様々な音響下でのニュース音声認識
- 字幕自動監視装置
- 音楽聴取体験の感動評価の要因とその個人差に関する検討(スペシャルセッション : 究極の超臨場感 (1))
- 超臨場感音響システム実現への課題と動向
- 言い換えを利用したリスピーク方式によるスポーツ中継のリアルタイム字幕制作(音声,聴覚)
- EA2010-22 音楽聴取における音の臨場感と主観的な近さとの関係
- 生字幕放送のための音声認識 : システムの概要とリスピークの効果
- 連続音声認識における動的特徴量の高精度な計算法
- 音声認識における高精度な動的特徴量計算法の提案
- 音声認識における高精度な動的特徴量計算法の提案
- 音声認識における高精度な動的特徴量計算法の提案
- メタデータ制作・活用システムの試作
- メタデータ制作・活用システムの試作(高精細画像の処理・表示, 及び一般)
- 音素情報を利用したBICに基づくオンライン話者識別
- コンテンツ活用のための報道番組自動書き起こしシステム
- 単語誤り最小化に基づく識別的リスコアリングによる音声認識(ポスターセッション,第10回音声言語シンポジウム)
- 単語誤り最小化に基づく識別的リスコアリングによる音声認識(ポスターセッション,第10回音声言語シンポジウム)
- 探索空間のエントロピーに基づく特徴量ストリームの動的な統合(音声認識・識別,第9回音声言語シンポジウム)
- 探索空間のエントロピーに基づく特徴量ストリームの動的な統合(音声認識・識別,第9回音声言語シンポジウム)
- 可変長サブワードHMMに基づく未知語処理を導入した音声認識(Session-6 音声認識,第8回音声言語シンポジウム)
- 帯域フィルタ出力の時間変化特徴量を利用したニュース音声認識(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- リアルタイム字幕放送のための音声認識(福祉と音声処理,一般)
- 音楽聴取における"感動"の評価要因----感動の種類と音楽の感情価の関係
- 最ゆう単語列逐次比較による音声認識結果の早期確定
- 音声認識を利用した放送用ニュース字幕制作システム
- ニュース音声認識システム(音声処理技術のデモの紹介)
- 2000-SLP-31-8 ニュースの直前原稿を利用した音声認識誤りの自動検出法
- ニュース音声認識における直前原稿を利用した認識性能の改善
- 人にやさしい放送と自然言語処理
- 2段階クラスタリングに基づく選択学習による音響モデル適応化
- 話題混合モデルによる放送ニュースからの話題抽出
- 放送ニュースの話題抽出モデル
- 帯域フィルタ出力の時間変化特徴量を利用したニュース音声認識(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 実況・対談における発声変形を考慮した音響モデルの検討(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- 実況・対談における発声変形を考慮した音響モデルの検討(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- 実用化されている情報バリアフリー技術(人にやさしい放送,人にやさしい映像情報メディア)
- 音響尤度補正による雑音環境下の音声認識の改善
- 雑音モデルに基づく補正音響尤度を用いた音声認識(雑音下音声処理)(第6回音声言語シンポジウム)
- 複数の信頼度尺度を統合した音声認識(ポスターセッション)(第6回音声言語シンポジウム)
- 雑音モデルに基づく補正音響尤度を用いた音声認識(雑音下音声処理)(第6回音声言語シンポジウム)
- 複数の信頼度尺度を統合した音声認識(ポスターセッション)(第6回音声言語シンポジウム)
- 雑音モデルに基づく補正音響尤度を用いた音声認識(雑音下音声処理)(第6回音声言語シンポジウム)
- 講演スタイルの解説番組を対象にした音声認識の検討
- 講演スタイルの解説番組を対象にした音声認識の検討
- ニュース解説を対象にした音声認識の検討
- ニュース解説を対象にした音声認識の検討
- ニュース解説を対象にした音声認識の検討
- ニュース音声認識のための時期依存言語モデル (音声言語情報処理)
- フィルタバンク・サブトラクションを用いたニュース番組現場リポート音声の認識
- A-19-1 解説放送に向けた台本作成支援ツール試作評価(A-19.福祉情報工学,一般セッション)
- 音声認識によるリアルタイム字幕放送の進展
- 逐次2パスデコーダを用いたニュース音声認識システム
- 音声/非音声区間切替による背景音抑圧処理法の検討(オーガナイズドセッション「人にやさしい音声情報処理」,福祉と音声処理,一般)
- 音声/非音声区間切替による背景音抑圧処理法の検討(オーガナイズドセッション「人にやさしい音声情報処理」,福祉と音声処理,一般)
- SP2000-11 話者クラス音響モデルのための学習データの自動選択手法
- 任意発声データに対する発音記号列を用いた離散分布HMMの話者適応化法
- 7-11 連続音声認識の字幕スーパーへの応用実験
- 字幕制作のためのオンライン発話検出と男女並列音声認識 (音声処理特集号)
- 音響モデル精度向上のための学習サンプル自動選択
- ニュース番組自動字幕化のための音声認識システム(音声IF,「マルチモーダルと音声HI」およびヒューマンインタフェース/音声言語情報処理一般)
- ニュース番組自動字幕化のための音声認識システム
- 6-6 コンテンツ検索のための報道番組自動書き起こしシステム(第6部門 メディア処理3)
- 2-3 字幕自動監視装置の試作(第2部門 放送技術(放送現業))
- 11-2 番組音声とリスピーク音声の自動認識を利用したニュース字幕制作実験(第11部門 放送現業)
- マルチ音素クラスのベイズ情報量基準に基づくオンライン話者ダイアライゼーション(音声,聴覚)
- 10-2 番組音声とリスピーク音声の認識を併用した生字幕制作の検討(第10部門 放送現業)
- 11-3 メタデータ制作・活用システムの試作(第11部門 放送現業)
- 9-1 メタデータ生成のための音声認識の改善(第9部門 メディア認識と評価I)
- 放送における視聴覚障害者向け情報バリアフリー技術
- 4-2.放送における視聴覚障害者向け情報バリアフリー技術(4. コンテンツ関連技術,著作権とコンテンツ流通)