音声/非音声区間検出のための自動モデル学習法の評価(特徴量, 区間検出)
スポンサーリンク
概要
- 論文の詳細を見る
近年映画やTV等に基づく大量のマルチメディアコンテンツが作成されており, それに基づくデータベースの構築が可能となっている.データの一例であるテレビ番組やラジオ番組等の音声データは音声以外の音が含まれていることが多く, クリーンな音声を対象とする音声認識手法を単純に適用するのは困難となる.本報告の目的はマルチメディアコンテンツに含まれる音声の区間を検出することである.あらかじめ音声以外の不必要な区間を除くことで, 従来の認識手法の障害となっている雑音等による誤認識を避けることができる.本報告では, 既存の音声認識手法が必要とする事前学習に必要な教師信号を自動で与え, 学習により性能を向上させていく手法について提案する.評価用のデータから教師信号を自動で作成することにより, 事前の学習が難しいデータに対しても用いる事ができる.また, 学習時と評価時のデータが異なることによる性能の劣化を抑えることができる.提案手法により最大3.0%の判別誤り率で判別を行うことができた.これはデータの40%から50%を手動でラベル付けしたのと同様の性能である.
- 2005-06-17
著者
関連論文
- 距離空間と出現確率時系列の幾何学的性質に基づくセグメント高速探索法(情報検索,情報処理技術のフロンティア)
- 話者認証を用いたX Window施錠システムxvlock : 開発とその評価
- 話者認証を用いたX Window 施錠システム xvlock 開発とその評価(バリアフリーインタフェース, および一般)
- 距離に基づく時系列Active探索法におけるl_p距離の探索効率の比較(音声,聴覚)
- 音声研究の現状と課題
- 音声/非音声区間検出のための自動モデル学習法の評価(音声言語,情報処理技術のフロンティア)
- 複数時系列中の類似セグメント高速探索法 : 3つの時系列に対する実装と評価(認識,理解,対話,一般)
- 類似セグメント探索RDDS法の評価(第8回音声言語シンポジウム)
- 類似セグメント探索RDDS法の評価(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- 類似セグメント探索RDDS法の評価(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- 音声研究会報告 : 解説と展望
- 音声/非音声区間検出のための自動モデル学習法の評価(特徴量, 区間検出)
- 譜面情報による楽曲の特徴付けの検討
- 字幕表示のためのVCMLプロジェクトの研究開発の現状 : 環境情景音表示とVCML文書の木構造化
- VCML Player字幕生成のための笑い声の検出
- VCML Player 字幕生成のための笑い声の検出
- 字幕表示システムVCML Playerの新機能について
- 音声と音楽のセグメンテーションの最適化
- 音楽と音声のセグメンテーションの最適化
- SP2000-17 Cepstrum Fluxを用いた音声と音楽のセグメンテーション
- 1K-4 標本化周波数識別法の雑音下音声に対する評価
- 音声の標本化周波数の自動識別方法
- 時間拘束条件下での重畳音声分解法の高速化(認識・理解・対話)
- 時間拘束条件下でのモデルを用いた重畳音声分解法
- 時間拘束条件下でのモデルを用いた重畳音声分解法
- パワー情報を用いた楽曲検索法
- SP2000-16 楽曲の高速検索手法の検討
- 時系列の歪み一定区分化法とセグメント探索における評価(一般, 一般, チュートリアルレクチャー)
- 字幕表示のための音声とテキストの自動対応付け手法とその評価
- Cepstrum Fluxを用いた音声区間の検出
- 話者認識を用いたコンピュータセキュリティシステムの評価
- 音響シーンセグメンテーション法の検討
- 音声/非音声判別法を用いた時間圧縮音声再生法(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 音声/非音声判別法を用いた時間圧縮音声再生法(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 音声/非音声判別法を用いた時間圧縮音声再生法(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 音声認識のためのマルチマイクロホンシステム : 第2部 超接話マイクロホンと音声認識実験結果
- セグメント高速探索法とその評価(Session-2 情報検索, 第7回音声言語シンポジウム)
- セグメント高速探索法とその評価(Session-2 情報検索, 第7回音声言語シンポジウム)
- セグメント高速探索法とその評価(Session-2 情報検索, 第7回音声言語シンポジウム)
- Video Caption Player 2.4 : 複数字幕同時表示機能の追加(ヒューマンコミュニケーショングループ(HCG)シンポジウム)
- 書き起しテキストのある音声ドキュメントの検索
- 音声とテキストの自動対応付けによる音声インデキシング手法とその評価(要約, 検索, 認識・理解・対話・一般)
- テキスト情報を利用した音声インデキシング
- 長時間音声字幕化のための朗読単位への区分化
- 字幕表示用言語VCMLの設計とその表示システムの開発
- 字幕自動生成における字幕と音声の時間軸整合の検討
- 任意個数の時系列に含まれる類似部分探索法(システム,第9回音声言語シンポジウム)
- 任意個数の時系列に含まれる類似部分探索法(システム,第9回音声言語シンポジウム)
- 任意個数の時系列に含まれる類似部分探索法(システム,第9回音声言語シンポジウム)
- 音声区間検出のためのVQ符号帳の自動学習
- 時間拘束条件下でのモデルを用いた重畳音声分解法
- 出現確率の幾何学的性質を用いたセグメント高速探索法(テーマセッション: 時系列・大規模メディア処理, データ工学とメディア理解との融合)
- 出現確率の幾何学的性質を用いたセグメント高速探索法(テーマセッション: 時系列・大規模メディア処理, データ工学とメディア理解との融合)
- Active探索におけるノルムと類似度との関係(聴覚・音声・言語とその障害, 一般)
- 音響情報の検索
- 複数時系列中の類似セグメント高速探索法(情報検索)
- 類似セグメント高速探索法における球被覆の検討(認識,理解,対話,一般)
- 距離に基づくActive探索法の計算量について(認識・理解・対話・一般)
- 複数時系列中の類似セグメント探索法の提案と評価(聴覚・音声・言語とその障害,一般)
- Active探索法による出現確率時系列の区分化とクラスタリング(一般, STRAIGHTスペシャルセッション(SS))
- 5N-9 手話パターン間距離の導出
- 2T-2 インターネット対応音響効果支援ツールキットの開発
- セグメントの高速探索法
- セグメントの高速探索法
- Java言語を用いたInternet対応しりとりゲーム
- ビデオデータにおける指定人物の検出と追跡 : 音声部分を用いた処理
- 音響シーンセグメントの接続の検討