自動学習による話者セグメンテーション

概要

論文の詳細を見る
本稿では、話者照合の技術をメディア処理に応用する方法と問題点について述べる。メディア処理としては、ニュース音声からアナウンサーの発話区間 (話者区間) を切り出す処理、座談会において参加者の発話区間を切り出す処理を目的としている。ニュース音声では、アナウンサーの発話区間を自動抽出することにより、ニュース記事の切り出しが可能となる。また、座談会では、参加者の発話区間を自動的に切り出すことにより、各参加者の意見をデータベース化することが可能となる。話者照合の方法としては、リアルタイム処理のために、部分空間法に基づく手法を採用している。
1997-11-21

著者

有木康雄
龍谷大学理工学部
西田昌史
同志社大学
西田昌史
龍谷大学理工学部

関連論文

部分空間法と自己組織型ネットワークを用いた複数顔領域の切り出し
音響・言語適応処理を用いたスポーツ実況中継音声の認識 : ハイライトシーン検出への応用
ニュース音声中の語彙反復による情報検索 : 部分空間射影に基づく話者正規化の応用
部分空間射影による話者正規化を用いた不特定話者HMM
話者部分空間への写像に基づく話者正規化の複数話者に対する有効性
話者部分空間への写像による話者認識と話者正規化
キーワードスポッティングによる商品紹介映像の商品区間への分割方法の検討
テロップ文字確認に基づくTVニュース記事の自動分類
テロップ認識における平滑化雑音除去について
ニュース映像中の文字認識に基づく記事の索引付け
映像文法に基づいた映像編集支援システムのための使用可能なショット区間の自動抽出(画像処理)
映像文法に基づく映像編集支援システム
映像編集支援システムのためのショットサイズ自動付与(オフィスシステム論文小特集)
アクティブ探索を用いた映像編集支援のためのショットサイズ自動判定
アクティブ探索を用いた映像編集支援のためのショットサイズ自動判定
アクティブ探索を用いた映像編集支援のためのショットサイズ自動判定
D-12-20 アクティブ探索を用いた映像編集支援のためのショットサイズ判定
SD-5-7 映像文法と映像解析に基づく編集支援システムの検討
D-12-138 映像編集支援システムのための人物に関するインデキシング
D-12-64 線の方向性と映像の構図に基づく撮影方向の判定
文字切り出しの改善によるテロップ文字認識の精度向上
分散発展型データベースシステム技術の研究 (メディア統合および環境統合のための高機能データベースシステム、および一般)
K-60 ニュース映像に対する発話内容と人物問い合わせシステム(ヒューマンインタフェース(HI)3,K.ヒューマンコミュニケーション&インタラクション)
GMMに基づく音声信号推定法の改良と実走行車内音声による評価
野球中継のハイライトシーン実時間配信を目的としたPCシーンの自動検出(映像・マルチメディアとパターン認識・理解)
野球中継のハイライトシーン実時間配信を目的としたPCシーンの自動検出(映像・マルチメディアとパターン認識・理解)
野球中継のハイライトシーン実時間配信を目的としたPCシーンの自動検出(映像・マルチメディアとパターン認識・理解)
時間領域SVDとGMMに基づく音声信号推定法の統合による雑音下音声認識
GMMに基づく音声信号推定法を用いた雑音下音声認識
キーワードスポッティングを用いた情報検索システムにおける拡張辞書の効果
SD-3-4 テレビ放送を対象としたキーワードスポッティングによる音声対話型情報検索
I-47 映像文法に基づいた映像編集支援システムのための使用可能ショット区間自動抽出と索引付け(画像応用,I.画像認識・メディア理解)
SD-5-6 テロップ文字認識による商品紹介映像の商品区間への分割方法
単語の相関空間における英語・日本語ニュースの相互検索
英語・日本語ニュースの相互検索の検討
日本語話し言葉音声認識のための音節に基づく音響モデリング(音声,聴覚)
日本語話し言葉音声認識のための音節に基づく高精度な音響モデルの検討
日本語話し言葉音声認識のための音節に基づく高精度な音響モデルの検討
日本語話し言葉音声認識のための音節に基づく高精度な音響モデルの検討
音素誤り最小化デコーディングに基づく音響モデルの教師なし適応化
音声認識と話者認識を統合した話者の人名付与システム(音声言語情報処理とその応用)
トピックセグメンテーションに基づく講義ビデオの構造化の検討
音素事後確率に基づく信頼度を用いた音響モデルの教師なし適応化
音素事後確率に基づく信頼度を用いた音響モデルの教師なし適応化
雑音除去とモデル適応を併用した雑音下音声認識 : AURORA2タスクでの評価
マイクロフォンアレイとカルマンフィルタを用いたノイズロバストなハンズフリー音声認識の検討
マイクロフォンアレイとカルマンフィルタを用いたノイズロバストなハンズフリー音声認識の検討
カルマンフィルタに基づく音声信号推定法を用いた雑音環境下での音声確認
雑音除去音声に対する特徴量抽出とMLLR適応の統合による雑音に頑健な音声認識
カルマンフィルタと繰り返しMLLR適応を用いた非定常雑音下での音声認識
部分空間と混合分布モデルを用いた声質変換
音声の時間変化モデルに基づく音声信号指定法を用いた非定常雑音下での音声認識
雑音の時間変動を考慮にいれた雑音除去法の検討
自動抽出されたアナウンサー発話に対するニュースディクテーションと記事分類
時期差を考慮した部分空間法による話者認識
音素HMMの連結学習における学習区間限定の効果
話者空間への写像に基づく話者正規化
学習区間を限定した連結学習による音素認識
動画のシーンクラスタリングにおける同一シーンの決定法
ニュース映像中のテロップ・フリップフレームの検出と文字抽出
多重部分空間法に基づくテレビスポーツニュース映像の自動分類
部分空間射影による顔の自動学習
スポーツ記事の自動判別と類似シーンの検索
DCT特徴に基づくTVスポーツ映像の自動判別
DCT特徴に基づくTVスポーツ映像の自動判別
DCT特徴に基づくTVスポーツ映像の自動判別
DCT特徴に基づくTVスポーツ・ニュースの自動判別における精度向上
ニュース映像中の記事に対する音声・文字・映像を用いた索引付けと分類
ニュース映像の索引付けと分類システムの構築
部分空間射影による顔領域の抽出と追跡
トポロジー変化に基づく動領域抽出
手書き漢字認識のための多重部分空間法について
DCT成分を用いたシーンのクラスタリングとカット検出
DCT成分を用いた動画シーンのクラスタリング : カット検出の一手法
クロスメディア・パッセージ検索 : テロップやCGフリツプ文字列を検索質問とした発話文書に対する検索方式 (画像の認識・理解論文特集)
講義データを対象とした音声認識と構造化の検討
ニュース音声に対するパッセージ検索法の比較
2000-DBS-122-49 文字と音声メディアの統合によるビデオ映像の構造化
DE2000-71 文字と音声メディアの統合によるビデオ映像の構造化
ニュース音声記事データベースにおける観点の自動抽出と構造化
テロップ区間と音声ディクテーションから導かれる単語空間の学習方式の検討 : トピックセグメンテーションへの応用
ニュース音声に対する検索方法の比較
D-12-16 ニュース映像中のテロップ文字認識
I-95 分割テンプレートを用いた正規化相関に基づくサッカー映像中の選手の追跡(映像・拡張現実感,I.画像認識・メディア理解)
方位に依存しない複数顔切り出しにおける精度向上
部分空間法を用いた向き・大きさによらない複数人の顔切り出し
正規化複数特徴部分空間法による顔認識と話者認識の統合
実環境下での話者認識におけるPMC法の効果について
IE2000-32 / PRMU2000-57 / MVE2000-61 映像の時空間分割とネットワーク表現による動物体抽出システムの検討
IE2000-32 / PRMU2000-57 / MVE2000-61 映像の時空間分割とネットワーク表現による動物体抽出システムの検討
KL変換に基づく音声特徴抽出の検討
KL変換に基づく音声特徴抽出の検討
KL変換に基づく音声特徴抽出の検討
統計的スペクトル分析による音声特徴抽出の検討
SD-2-4 映画を教材とした英語学習支援システム
英語学習における発音評価と単語発声誤りの検出について
ガウス分布から導出される部分空間法による話者照合法の検討
カルマンフィルタによる雑音除去法を用いた雑音環境下での音声認識
カルマンフィルターを用いた雑音環境下における音声認識の検討
話者部分空間の入れ替えによる声質変換

自動学習による話者セグメンテーション

スポンサーリンク

概要

著者

関連論文

スポンサーリンク