PodCastleの実現 : Web 2.0に基づく音声認識性能の向上について(セッション2 : 理解るインタフェース : 音声+ソーシャル+コミュニティ)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,ポッドキャストを検索できるWebサービス「PodCastle」を実現するための音声認識手法について述べる.ポッドキャストでは多様な内容が異なる環境で録音されており,多数の未知語を含む新たな話題も多いため,従来の音声認識システムで適切に認識するのは困難だった.この問題を解決するために,本研究では,Web 2.0によって得られる様々なデータを用いることによって,継続的に,音声認識システムを改善していく.具体的には,各ポッドキャストの内容に応じた言語モデルの話題適応,Web 2.0のサービスを通じた単語発音の自動獲得,PodCastle上でユーザが音声認識誤りを訂正した結果を用いた未知語の学習等を試みた,実際にポッドキャストを対象とした認識実験を行い,性能向上に有効であることを確認した.
- 2007-02-09
著者
-
後藤 真孝
産業技術総合研究所
-
緒方 淳
産業技術総合研究所
-
江渡 浩一郎
独立行政法人産業技術総合研究所
-
江渡 浩一郎
産業技術総合研究所
-
江渡 浩一郎
(独)産業技術総合研究所 社会知能技術研究ラボ
-
江渡 浩一郎
独立行政法人産業技術総合研究所社会知能技術研究ラボ
関連論文
- 5 音楽情報学(新しい○○情報学)
- 歌唱指導による音響特徴の変化とその歌唱力評価への影響
- Hyperlinking Lyrics : 複数の楽曲の歌詞中に共通して登場するフレーズ間へのリンク作成手法(アプリケーション)
- MusicThumbnailer : 音響的特徴に基づく楽曲のサムネイル画像生成手法(アプリケーション)
- 10.初学者のための音楽情報処理ブックマーク(音楽情報処理技術の最前線)
- 5R-5 A Music Retrieval Approach from Alternative Genres of Query by Adjusting Instrument Volume
- 合同特別企画: パネルディスカッション「"音"研究の未来」
- PodCastle: ユーザ貢献により性能が向上する音声情報検索システム
- 単一テンプレート適応法による音楽音響信号を対象としたハイハットシンバルの音源同定(音楽音響信号認識)
- AISTハミングデータベース : 歌声研究用音楽データベース
- ドラムパターン推定によるドラム音認識誤り補正手法
- テンプレート適応を利用した実世界の音楽音響信号に対するドラムスの音源同定
- 音声シフト : 音高の意図的な変化を利用した音声入力インタフェース(音声, 聴覚)
- 音声シフト : "SHIFT"on Speech
- SingBySpeaking : 歌声知覚に重要な音響特徴を制御して話声を歌声に変換するシステム(スペシャルセッション・歌情報処理2)
- 音楽と歌詞の時間的対応付けシステムLyricSynchronizerを改良する3つの手法(スペシャルセッション・歌情報処理1)
- 楽譜情報を援用した多重奏音楽音響信号の音源分離と調波・非調波統合モデルの制約付きパラメータ推定の同時実現(音楽情報,新しいパラダイムの中での分散システム/インターネット運用・管理)
- 集合知に基づく語彙情報を用いたトピック依存言語モデリング(理解)
- ポッドキャスト音声認識の性能向上手法 : 集合知によって更新されるWebキーワードを活用した言語モデリング(学生セッション I)
- ポッドキャストを対象とした類似エピソード検索手法(学生セッション I)
- RWC研究用音楽データベース : 音楽ジャンルデータベースと楽器音データベース
- RWC研究用音楽データベース : ポピュラー音楽データベースと著作権切れ音楽データベース
- RWC研究用音楽データベース : クラシック音楽データベースとジャズ音楽データベース
- スペクトル制御エンベロープによる混合音中の周期および非周期成分の選択的イコライザ
- パネルディスカッション : 作るだけでいいの?調べるだけでいいの?(合同特別企画)
- 楽曲推薦システムの効率性とスケーラビリティの改善のための確率的推薦モデルのインクリメンタル学習法(検索・推薦)
- 歌声に含まれる個人性知覚に寄与する音響特徴量の検討(音声生成・知覚,聴覚心理,音声学・音韻論,一般)
- 有声・無声休止区間の自動検出を考慮したデコーディングによる自由発話音声認識の性能改善(音声,聴覚)
- 多重奏中の歌声の基本周波数と有声音素の同時推定手法
- ライブストリーミングのための協調的音声書き起こしシステム
- PodCastle--動的言語モデリングに基づくポッドキャスト音声認識 (音声)
- PodCastle--動的言語モデリングに基づくポッドキャスト音声認識 (言語理解とコミュニケーション)
- 合同特別企画: パネルディスカッション「"音"研究の未来」
- PodCastle : ポッドキャスト音声認識のための集合知を活用した言語モデル学習
- ポッドキャストを対象とした音リアクションイベント検出
- PodCastle:動的言語モデリングに基づくポッドキャスト音声認識
- Query-by-Conducting:テンポ類似性に基づく同一楽曲における多様な解釈の検索インタフェース
- 多重音基本周波数解析のための無限潜在的調波配分法
- Sinsy:「あの人に歌ってほしい」をかなえるHMM歌声合成システム
- VocaListener2: ユーザ歌唱の音高と音量だけでなく声色変化も真似る歌声合成システムの提案
- 歌声情報処理: 歌声を対象とした音楽情報処理
- SpeakBySinging: 歌声を話声に変換する話声合成システム
- RWC研究用音楽データベース : 音楽ジャンルデータベースと楽器音データベース
- RWC研究用音楽データベース : ポピュラー音楽データベースと著作権切れ音楽データベース
- 歌声GMMとビタビ探索を用いた多重奏中のボーカルパートに限定した基本周波数推定手法(音楽音響信号処理 (1))
- 多重奏音楽音響信号の音源分離のための調波・非調波モデルの制約付きパラメータ推定(認識・測定)
- 多重奏音楽音響信号の音源分離のための調波・非調波モデルの制約付きパラメータ推定(認識・測定)
- ダンス動画コンテンツを再利用して音楽に合わせた動画を自動生成するシステム
- 混合音中の歌声スペクトル包絡推定に基づく歌声の声質変換手法
- 多重奏を対象とした音源同定 : 混合音テンプレートを用いた音の重なりに頑健な特徴量への重み付け及び音楽的文脈の利用(画像認識,コンピュータビジョン)
- Instrogram : 発音時刻検出とF0推定の不要な楽器音認識手法
- 伴奏書抑制と高信頼度フレーム選択に基づく楽曲の歌手名同定手法(音楽情報,情報処理技術のフロンティア)
- 伴奏音抑制と高信頼度フレーム選択に基づく楽曲中の歌声の歌手名同定手法
- 混合音テンプレートを用いた多重奏の音源同定(音楽音響信号認識)
- PodCastle:ポッドキャスト音声認識のための集合知を活用した言語モデル学習
- ポッドキャストを対象とした音リアクションイベント検出
- 多重奏楽曲の楽器音量バランス変化による音楽ジャンルシフト
- Sinsy : 「あの人に歌ってほしい」をかなえるHMM歌声合成システム
- ポッドキャストを対象とした類似エピソード検索手法(学生セッション I)
- ARHMMに基づいた音声分析手法と歌声認識による評価(聴覚・音声及び一般)
- デモンストレーション : 音楽情報処理の研究紹介VIII
- 特別セッション : ISMIRコミュニティからの招待講演
- デモンストレーション:音楽情報処理の研究紹介VIII
- 特別セッション:ISMIRコミュニティからの招待講演
- 複数楽器混合モデルのパラメータ推定と楽器名同定への応用
- 楽器音イコライザによる音色の類似度に基づく楽曲検索システム(音響分析一般(2))
- 2X-6 複数楽器個体による事前分布を用いた調波・非調波統合モデルのパラメータ推定(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- 音色特徴量分布の利用による調波・非調波統合モデルのパラメータ推定(音楽音響信号処理 (2))
- 歌声情報処理の最近の研究
- SingBySpeaking : 歌声知覚に重要な音響特徴を制御して話声を歌声に変換するシステム(スペシャルセッション・歌情報処理2)
- SpeakBySinging : 歌声を話声に変換する話声合成システム
- 口ドラム認識手法とそのドラム譜入力システムへの応用(音楽情報)
- 口(くち)ドラムによるドラムパターン検索手法(音楽・演奏の認識合成)
- 無伴奏歌唱におけるブレスの音響特性とそれに基づく自動ブレス検出(音響分析一般(1))
- VocaListener : ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステムの提案(セッション2)
- VocaListener : ユーザ歌唱を真似る歌声合成パラメータを自動推定するシステムの提案(セッション2)
- 楽譜情報を用いない歌唱力自動評価手法(音楽音響分析,便利で身近な音楽情報処理)
- 歌唱力評価の聴取者実験と自動評価手法の検討
- 6J-6 楽器音イコライザによる楽曲音響特徴変動と類似楽曲検索への応用(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 音楽・音声の音響信号の認識・理解研究の動向(インタラクティブシステムとソフトウェア)
- confusion networkと語彙制約なし音声認識を用いた動的発音モデリング(単語辞書・発音モデル)
- ポッドキャスト音声認識の性能向上手法 : 集合知によって更新されるWebキーワードを活用した言語モデリング(学生セッション I)
- 相平面に描かれる歌声の基本周波数軌跡:歌唱者の意図する音高目標値系列の推定とハミング検索への応用
- AS-5-2 相平面を利用した歌声のF0軌跡の新しい表現方法(AS-5. 音響信号のモデリングと表現,シンポジウムセッション)
- 歌声の旋律と動的変動を特徴付けるための確率的な表現手法に関する検討(音楽音響信号処理 (1))
- 音声だけでシームレスにハミング検索と曲名検索が可能な楽曲検索システム
- スペクトル包絡と基本周波数の時間変化を利用した歌声と朗読音声の識別(音楽情報,情報処理技術のフロンティア)
- 局所的・大局的な特徴を利用した歌声と朗読音声の識別
- 6U-1 F0・振幅・音韻長の制御により歌声を話声に変換する話声合成システムSpeakBySinging(音声・歌声合成,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 音声ペン : 音声認識結果を手書き文字入力で利用できる新たなペン入力インタフェース(インタラクティブソフトウェア)
- 音声ペン: "WRITING" on Speech(インタフェース)
- 音楽情報処理研究者{に,が}望むこと(パネルディスカッション)
- 音楽音響信号解析のための階層ディリクレ過程に基づく無限潜在的調波配分法(IBIS2010(情報論的学習理論ワークショップ))
- PodCastleの実現 : Web 2.0に基づく音声認識性能の向上について(セッション2 : 理解るインタフェース : 音声+ソーシャル+コミュニティ)
- PodCastleの提案 : 音声認識研究2.0を目指して(セッション2 : 理解るインタフェース : 音声+ソーシャル+コミュニティ)
- PodCastleの実現 : Web 2.0に基づく音声認識性能の向上について(セッション2 : 理解るインタフェース : 音声+ソーシャル+コミュニティ)
- PodCastleの提案 : 音声認識研究2.0を目指して(セッション2 : 理解るインタフェース : 音声+ソーシャル+コミュニティ)
- 7.音楽推薦システム(音楽情報処理技術の最前線)
- MusicCommentator:音楽に同期したコメントを自動生成するシステム
- ユーザの評価と音響的特徴との確率的統合に基づくハイブリッド型楽曲推薦システム