音声中の任意検索語検出のための未知語区間推定に基づく選択的インデックス統合法
スポンサーリンク
概要
- 論文の詳細を見る
本研究では音声検索語検出のために複数の音声認識器から出力された認識結果を統合する手法において,未知語区間推定結果に基づいてインデックスを選択的に統合することで,検出精度の劣化を抑えつつインデックスサイズを削減する手法について提案する.提案する手法は4種類の音声認識器から得られた出力を1つのネットワークへと統合する.その際,未知語区間推定結果に基づきネットワーク中の有効なアークの選択や,インデックスに用いるサブワード単位の選択を行うことで,冗長なインデックスを削減する.日本語話し言葉コーパスを用いた評価の結果,提案法によって,検出精度の劣化を1.4ポイントに抑えたうえで音素Transition Networkから22.7%のインデックスが削減できることを確認した.単一の音声認識結果から作成した音素単位のネットワークと比較した場合,提案法では,インデックスの統合による検出精度向上の効果(既知語で16.3%,未知語で16.0%の検出エラー削減)を保ちながら,単一の音声認識結果に基づくインデックスと同等以下の大きさまでインデックスサイズを抑えることができた.
- 一般社団法人情報処理学会の論文
- 2014-03-15
著者
-
神田 直之
京都大学大学院情報学研究科
-
糸山 克寿
京都大学大学院情報学研究科知能情報学専攻
-
糸山 克寿
京都大学大学院情報学研究科
-
奥乃 博
京都大学大学院
-
神田 直之
京都大学大学院情報学研究科|株式会社日立製作所中央研究所
関連論文
- 複数の言語モデルと言語理解モデルによる音声理解の高精度化(音声認識・理解,情報爆発論文)
- 4Q-2 音声認識と言語理解を動的に選択する音声理解フレームワーク(音声対話・音声要約,学生セッション,人工知能と認知科学)
- 複数の言語モデル・言語理解方式を用いた音声理解の高精度化(理解)
- LE-008 音声認識結果とコンセプトへの重みづけによるWFSTに基づく音声言語理解の高精度化(自然言語・音声・音楽)
- 音声認識結果とコンセプトへの重みづけによるWFSTに基づく音声言語理解の高精度化(学生セッション I)
- マルチドメイン音声対話システムにおける対話履歴を利用したドメイン選択(音声言語)
- 5Q-3 神経回路モデルを用いた音声模倣モデルによる音声バブリングと母音獲得過程シミュレーション(ニューラルネット(1),学生セッション,人工知能と認知科学)
- ロボット聴覚オープンソースソフトウエアHARK
- 人工神経回路モデルと声道物理モデルを用いた母音模倣モデルに基づく音素獲得シミュレーション
- 残響下でのバージイン発話認識のための多入力独立成分分析を応用したロボット聴覚
- 4ZC-2 楽器の内部モデルに基づくフィードフォワード制御によるテルミン演奏ロボットの開発(身体,学生セッション,コンピュータと人間社会)
- 3Y-2 顔追跡による音環境可視化システムのアウエアネスの改善(アンビエント・インタフェース,学生セッション,インタフェース)
- 5S-1 RNNを備えた2体の小型ロボット間の首振り動作と音声によるインタラクションにおける共有シンボルの創発(認知・推論・探索,学生セッション,人工知能と認知科学)
- 5R-7 歌唱ロボットのためのビート情報とメロディ・ハーモニー情報の統合による音楽音響信号と楽譜の実時間同期手法の開発(音楽検索・解析,学生セッション,人工知能と認知科学)
- 5R-6 ベース音高確率とクロマベクトルの相関を考慮した和音進行認識(音楽検索・解析,学生セッション,人工知能と認知科学)
- 4R-2 音色特徴量に基づく調波・非調波統合モデルによる楽器音モーフィング(音楽演奏・生成,学生セッション,人工知能と認知科学)
- 4R-1 連続発音中の音色変化に着目した未学習譜面上への演奏信号生成(音楽演奏・生成,学生セッション,人工知能と認知科学)
- 4Q-4 音声対話システムにおける想定外発話の文法検証を用いた対話行為推定に基づくヘルプ生成(音声対話・音声要約,学生セッション,人工知能と認知科学)
- 4Q-3 実環境音声対話システムにおけるバージイン発話タイミングを活用した指示対象の同定(音声対話・音声要約,学生セッション,人工知能と認知科学)
- 3D-3 ロボットによる卓上物体操作のためのRNNを用いた道具身体化モデルの構築(人工知能(1),一般セッション,人工知能と認知科学)
- 5ZC-6 本質的に異なる数独解盤面の列挙と番号付け(エンタテインメントコンピューティング,学生セッション,コンピュータと人間社会)
- 調波構造と音源方向に基づく音源分離法における残響耐性の改善(音響と音声処理,音声強調,ロバスト音声認識)
- ロボット聴覚の現状と展望
- ロボットを対象としたビートトラッキング法の提案とその音楽ロボットへの応用
- 4.音楽ロボットのための実時間音楽情報処理(音楽情報処理技術の最前線)
- 単一テンプレート適応法による音楽音響信号を対象としたハイハットシンバルの音源同定(音楽音響信号認識)
- 6U-5 フィールドにおける音源定位のための音声視覚化デバイス「カエルホタル」の設計(ネットワーク応用,学生セッション,ネットワーク)
- ドラムパターン推定によるドラム音認識誤り補正手法
- テンプレート適応を利用した実世界の音楽音響信号に対するドラムスの音源同定
- ニホンアマガエルの同期した発声行動に関する実験的研究およびその数理モデル解析
- 移動型および静止型マイクロホンアレイ統合による複数移動音源追跡
- 楽譜情報を援用した多重奏音楽音響信号の音源分離と調波・非調波統合モデルの制約付きパラメータ推定の同時実現(音楽情報,新しいパラダイムの中での分散システム/インターネット運用・管理)
- 自己組織化マップによる教師なしクラスタリングを利用したドラム演奏の自動採譜(音楽音響信号認識/生成1)
- ゲーム理論に基づく参照結束性のモデル化と日本語・英語の大規模コーパスを用いた統計的検証
- インターネットワークにおける正しい電子メールアドレスを教えるシステム : Nuewildの構想
- 音高による音色変化を考慮した楽器音の音高・音長操作手法(演奏分析・支援・加工)
- デモンストレーション : 若手による研究紹介V(音楽音響信号処理 (1))
- 楽曲推薦システムの効率性とスケーラビリティの改善のための確率的推薦モデルのインクリメンタル学習法(検索・推薦)
- LinuxによるBeowulfクラスタ構築格闘記
- 2D-1 ソフトマスクと音響モデル適応を用いた3話者同時発話音声認識(音声・音楽情報処理,一般セッション,人工知能と認知科学)
- 音声対話システムにおける簡略表現認識のための誤認識増加を抑制する自動語彙拡張(学生セッション II)
- 3U-5 音声対話システムにおけるユーザの固有名詞の簡略化に対処する語彙拡張(音声言語情報処理,学生セッション,人工知能と認知科学)
- デモンストレーション:若手による研究紹介IV
- テルミンの音高・音量特性のモデルに基づくテルミン演奏ロボットの開発
- 複数の編集距離を用いた口語翻訳文の自動評価
- RNNを備えた2体のロボット間における身体性に基づいた動的コミュニケーションの創発
- 2X-8 音楽と自分の声を聞き分けながらビートに合わせて発声するロボットの開発(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- Query-by-Conducting:テンポ類似性に基づく同一楽曲における多様な解釈の検索インタフェース
- 多重奏音響信号中の演奏をユーザー指定の旋律に差し替えるフレーズ置換システム
- 音声対話システムにおけるラピッドプロトタイピングを指向したWFSTに基づく言語理解
- バージイン許容音声対話システムにおけるユーザ発話の分析と指示対象同定への応用
- SpeakBySinging: 歌声を話声に変換する話声合成システム
- 歌声GMMとビタビ探索を用いた多重奏中のボーカルパートに限定した基本周波数推定手法(音楽音響信号処理 (1))
- 多重奏音楽音響信号の音源分離のための調波・非調波モデルの制約付きパラメータ推定(認識・測定)
- 多重奏音楽音響信号の音源分離のための調波・非調波モデルの制約付きパラメータ推定(認識・測定)
- パネル討論会 : 人工知能とプログラミングの接点
- 複数の言語モデルと言語理解モデルによるラピッドプロトタイピング向け音声理解
- 楽曲の特徴量抽出と検索技術
- マルチメディアコンテンツにおける音楽と映像の調和度計算モデル
- 多重奏を対象とした音源同定 : 混合音テンプレートを用いた音の重なりに頑健な特徴量への重み付け及び音楽的文脈の利用(画像認識,コンピュータビジョン)
- Instrogram : 発音時刻検出とF0推定の不要な楽器音認識手法
- 伴奏書抑制と高信頼度フレーム選択に基づく楽曲の歌手名同定手法(音楽情報,情報処理技術のフロンティア)
- 伴奏音抑制と高信頼度フレーム選択に基づく楽曲中の歌声の歌手名同定手法
- 混合音テンプレートを用いた多重奏の音源同定(音楽音響信号認識)
- 和音区間検出と和音名同定の相互依存性を解決する和音認識手法(音楽音響信号認識)
- 音高による音色変化に着目した楽器音の音源同定:FO依存多次元正規分布に基づく識別手法(音楽情報)
- 音響的特徴に基づく楽器の階層表現の獲得とそれに基づくカテゴリーレベルの楽器音認識の検討(音楽音響信号認識/生成1)
- 多重奏楽曲の楽器音量バランス変化による音楽ジャンルシフト
- 複数楽器混合モデルのパラメータ推定と楽器名同定への応用
- 残差スペクトルモデルによる伴奏・残響成分抑制に基づいた楽器演奏分析合成の高精度化
- 音響信号と音楽的制約を統合したバイオリンの演奏弦系列の推定
- 音色の音高依存性を考慮した楽器音の音高操作手法
- 楽器音イコライザによる音色の類似度に基づく楽曲検索システム(音響分析一般(2))
- 4X-4 音楽と映像の調和度計算モデルを用いたクロスメディア検索(音楽情報科学(3)検索・インタフェース,学生セッション,人工知能と認知科学)
- 2X-7 楽器固有の音響的特徴を考慮した楽器音の音高操作手法(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- 2X-6 複数楽器個体による事前分布を用いた調波・非調波統合モデルのパラメータ推定(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- 2X-5 ベース音高を考慮したポピュラー音楽に対する和音進行認識(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- 音色特徴量分布の利用による調波・非調波統合モデルのパラメータ推定(音楽音響信号処理 (2))
- 複数ドメイン音声対話システムにおける対話履歴を利用したドメイン選択の高精度化
- 6J-6 楽器音イコライザによる楽曲音響特徴変動と類似楽曲検索への応用(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 5T-5 調波非調波GMMに基づくMIDI演奏音響信号に対する音色・演奏表情操作(音楽信号処理,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 6U-1 F0・振幅・音韻長の制御により歌声を話声に変換する話声合成システムSpeakBySinging(音声・歌声合成,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- LG-001 データベース検索音声対話システムにおける履歴を考慮した検索条件の管理(G. 音声・音楽)
- ベース音高と和音特徴の統合に基づく和音系列認識
- MAHL:演奏者間のインタラクション分析のためのスコアアライメント手法の提案
- 歌詞と音響特徴量を用いた楽曲印象軌跡推定法の設計と評価
- データベース検索タスクにおける文脈的制約を用いた音声対話システム (テーマ:ロボット・エージェントとのコミュニケーションおよび一般)
- フレーズ置換のための調波非調波GMM・NMFに基づく音源分離・演奏合成
- データベース検索タスクにおける対話文脈を利用した音声言語理解(音声言語,情報処理技術のフロンティア)
- データベース検索タスクの文脈的制約を用いた音声対話システムの実験的評価
- 多重奏音楽音響信号に対する楽器音の分離とその応用(AI応用(音楽),人工知能分野における博士論文)
- ベイジアン非負値調波因子分解と多重基本周波数推定への応用
- 押弦制約と運指制約を用いたタブ譜自動生成システム
- 楽器音に対する仮想音源のパラメータ推定
- 伴奏付き歌唱に含まれる歌い方要素の個別抽出
- ギター演奏者の習熟度に合わせた音響信号からのタブ譜自動生成
- 音声中の任意検索語検出のための未知語区間推定に基づく選択的インデックス統合法
- 音響特徴・ベース音・和音遷移を用いた自動和音認識
- スペクトル変化量のピーク間隔・F0・MFCCを用いた歌声と朗読音声の自動識別システム
- 擬似生成した複数方言言語モデル混合による混合方言音声認識