ワードスポッティングと動的計画法を用いたテレビ番組に対する字幕提示タイミング検出法
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,事前収録されたテレビ番組に対して番組VTRと事前電子化原稿から聴覚障害者向けの字幕を自動的に付与する技術の中で,音声と字幕の同期タイミングを検出する字幕提示タイミング検出手法について述べている.背景音が重畳している放送音声に対しては,音素HMMワードスポッターだけに基づいたタイミング検出手法では十分な検出精度が得られない.番組の原稿中の各文に対してワードスポッティングにより複数のタイミング候補を検出し,音響的なゆう度に加え三つのスコア(原稿の時間順序,原稿から推定される発声時間との比,音声らしさ)を用いた動的計画法を行い,番組全体として最適なタイミングを選択する手法を提案した.ドキュメンタリー番組10回分を対象とした評価実験において,許容検出誤差を1秒とした場合に検出率99.0%,3秒とした場合に99.7%の検出精度が得られ,実用的な方式であることが示された.
- 2002-02-01
著者
-
阿部 芳春
三菱電機・情報総研
-
白井 克彦
通信・放送機構渋谷上原リサーチセンター
-
丸山 一郎
通信・放送機構渋谷上原リサーチセンター
-
江原 暉将
通信・放送機構渋谷上原リサーチセンター
-
白井 克彦
早稲田大学理工学部コンピュータ・ネットワーク工学部
-
丸山 一郎
通信・放送機構渋谷上原リサーチセンター:(現)三菱電機株式会社情報技術総合研究所
-
阿部 芳春
通信・放送機構渋谷上原リサーチセンター
-
江原 暉将
通信・放送機構:nhk放送技術研究所
-
阿部 芳春
通信・放送機構渋谷上原リサーチセンター:三菱電機株式会社情報技術総合研究所
関連論文
- 正弦波トラジェクトリに基づく楽器音中の音声強調
- J-028 音声対話システム利用時における感情表出誘因性に関する考察(ヒューマンコミュニケーション&インタラクション,一般論文)
- 検索語の共起情報を利用した単語クラスタリングとWeb検索への応用
- 検索語の共起情報を利用した単語クラスタリングとWeb検索への応用(QA・Web検索)
- 多次元心的状態を扱う音声対話システムの構築
- 日本人英語認識におけるマルチ単語モデルの改良
- 複数単語モデルによる日本人英語音声認識の検討
- 日本人英語の発話様態を考慮した英語音声連続認識の検討
- 発声変形モデルを用いた騒音環境下音声認識
- 日本人英語認識における単語モデル構成法の検討
- 日本人英語音声認識における音響モデルの検討
- 日本人発声者による英語音声の認識
- 重畳雑音のパタン選択とパワー推定を用いた騒音下音声認識手法の改良
- 雑音標準パタンを用いた非定常騒音下音声認識の検討
- A-10-2 べき級数展開によるフォルマント表現(A-10.応用音響,一般セッション)
- A-10-7 べき級数展開によるスペクトル予測推定(A-10. 応用音響,一般セッション)
- 録画番組を対象とした,効率的な字幕番組制作システムの開発(ヒューマンコミュニケーショングループ(HCG)シンポジウム)
- 障害者向けオフライン字幕制作実用化モデルの開発
- 新しい字幕制作実用化モデルシステムの設計・開発(デジタル放送技術, デジタル設備および一般)
- 音声認識・文字認識を用いた電子化原稿作成支援システムの概要(感性情報処理とマルチメディア技術および一般)
- 多様な字幕表示形式を選択可能な字幕放送受信システム
- 9-8 字幕番組制作技術の研究開発フェーズ2における計画の概要
- 17-6 オフライン自動字幕番組制作システムの評価
- 字幕制作技術研究開発フェーズ2に関する計画の概要
- 聴覚障害者向け字幕番組の制作技術
- 聴覚障害者向け字幕付きテレビ番組の自動制作システム
- 8-3 聴覚障害者のための字幕放送制作技術の研究状況 (第三報)
- E-073 適応的言語処理を用いた音声認識利用による楽曲検索システムの検討(E分野:自然言語・音声・音楽)
- 人間形会話ロボット : パラ言語の生成・理解機能を持つマルチモーダルインタフェース
- D-14-14 品詞情報を用いた操作要求発話判別(D-14. 音声,一般セッション)
- D-5-7 相手にあわせた発話調整機能のための言語情報からのユーザモデル生成手法の検討(D-5. 言語理解とコミュニケーション,一般セッション)
- D-5-6 再利用可能情報収集のための構造化データベースの提案(D-5. 言語理解とコミュニケーション,一般セッション)
- ユーザの発話を利用した聞き取りやすい英語への音声変換手法 (音声)
- ユーザの発話を利用した聞き取りやすい英語への音声変換手法 (言語理解とコミュニケーション)
- D-14-11 韻律条件付言語モデルを用いた音声認識のリスコアリング(D-14. 音声,一般セッション)
- D-14-2 文頭・文末の音韻情報を加味した単文に有効な言語識別手法(D-14. 音声,一般セッション)
- D-14-1 対話支援システムのための雑談判別(D-14. 音声,一般セッション)
- 音声対話システムにおける発話意図推定
- ユーザの嗜好に適応させた選曲システムの提案
- D-14-3 質問者の発話による発表スライド特定提示法(D-14.音声,一般セッション)
- A-15-24 PC操作情報とソーシャルタグに基づいた楽曲推薦手法(A-15.ヒューマン情報処理,一般セッション)
- AMとFMの長時間分析に基づく音声認識
- 狭帯域解析信号と非線形識別分析を用いた音声認識(認識,理解,対話,一般)
- 可変長セグメントパタンマッチングに基づく楽音の音高・楽器推定
- 住所認識のためのメモリ管理方式の検討
- ワードスポッティングと動的計画法を用いたテレビ番組に対する字幕提示タイミング検出法
- 通信・放送機構 渋谷上原リサーチセンターの研究紹介 : 視聴覚障害者向け放送ソフト制作技術の研究開発プロジェクト
- 大語彙音声認識における言い換え表現の自動生成方式
- 16ビットマイコン用不特定話者音声認識ミドルウェアの検討
- D-14-10 N-gram言語モデルを用いた音声対話システムにおける冗長語処理の検討
- 大語彙連続音声認識のための複数言語モデルの並列同時単語列探索法(音声言語)(次世代移動体通信システム)
- 話題混合言語モデル構築のための単語連鎖統計量を用いたコーパス分類尺度
- 単語とサブワードの統計量を用いた言語モデル構築手法の一検討
- 混合言語モデルのためのコーパスの記事単位クラスタリング
- 音節認識結果における誤り傾向を考慮した未知語学習の評価
- D-14-9 スムージングを考慮したMDI法の一検討
- 混合言語モデルのための並行単語列検索
- クラス情報を用いた単語トライグラム言語モデルの一検討
- 分野外の統計量を用いた言語モデルの一検討
- 混合言語モデル作成のためのコーパスのクラスタ分割の検討
- 高背景音放送音声を対象とする字幕・音声自動同期の検討
- 放送音声に対する字幕放出タイミング検出手法の検討
- ドキュメンタリー番組における字幕送出タイミング検出の一検討
- ニュース字幕の提示タイミングずれに対する許容特性
- A-14-22 字幕提示タイミングずれに対する許容の主観評価
- 15-10 聴覚障害者のための字幕放送制作技術の研究状況(第二報)
- 字幕送出タイミング検出におけるワード列ペアモデルの構成検討
- ワード列ペアモデルによる字幕送出タイミング検出の検討
- 字幕・音声同期におけるワード列ペアモデルのスポッティング精度改良
- ニュース音声データベース構築における文セットの設計
- 4 聴覚障害者向け字幕放送における自動要約(テキスト自動要約 : 知的活動支援の基本技術として)
- 2000-NL-138-3 聴覚障害者向け字幕放送のためのニュース文自動短文分割
- NLC2000-12 聴覚障害者向け字幕放送のためのニュース文自動短文分割
- ピッチパタンの統計モデルに基づく句境界情報を利用した文節スポッティング
- 実験用字幕つきTVニュースの制作と字幕表示法に関する予備評価について
- 認識誤り傾向の確率モデルを用いた2段階探索法による大語彙連続音声認識
- ローカルな発話速度が音節認識性能に与える影響について
- クラスタリング情報を用いた未知バイグラム確率推定の一検討
- トピック分割による統計量を用いた言語モデルの一検討
- 大語彙連続音声認識のための音節認識における声道・音源特徴併用の検討
- 音節認識結果における誤り傾向を考慮した未知語学習の一方式
- 手動および自動クラスタリングによる言語モデルの比較
- 二段階探索法による連続音声認識におけるNベスト音節認識結果使用の検討
- 認識誤り傾向の確率モデルを用いた二段階探索法による大語彙連続音声認識
- 少量コーパスにおけるクラス言語モデルの一検討
- 最大分岐密度選択法の音声認識への適用
- 文字連鎖統計量を用いた未知語モデルによる単語推定
- 予備選択における性能向上の一検討
- 1段目の最適解と正解との差分傾向を考慮した2段階探索法
- 15-8 聴覚障害者のための字幕つきテレビ放送制作への自然言語処理の応用
- 種々の統計量を用いた単語リジェクト方式の検討
- 文節スポッティングにおけるスポッティング精度改善のための諸検討
- 改行・改頁点付与の自動化を実現する字幕制作要素技術
- 複数条件学習による騒音・音楽環境下音声認識の検討
- テキスト音声認識におけるインクリメンタル適応型ビームサーチの検討
- 音響形態素を単位としたテキスト音声認識の検討
- 音節グラフの文脈自由構文解析におけるA^*探索の検討
- 分野非限定の大語い連続音声認識における音響言語探索手法の検討
- 分野非限定の大語い連続音声認識における音響言語結合方式の検討
- 音響的先読みによる仮説棄却取り消しの一検討