擬似生成した複数方言言語モデル混合による混合方言音声認識
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,様々な方言の混合に対応する音声認識システムを構築する.まず,単一方言音声認識の言語モデルを,大規模共通語言語コーパスから擬似生成した方言言語コーパスで学習する.擬似生成には,共通語-方言対訳コーパスからWFST(重み付き有限状態トランスデューサ)によって学習されたルールを用いる.次に,構築された各方言言語モデルを混合し,発話ごとに最適な混合比を推定しながら認識を行う.これは,実際に話される方言が純粋な単一方言ではなく,人の移動やテレビ,ラジオなどの放送の影響を受けた様々な方言の混合であると考えられるからである.この推定には,音声認識用言語モデルにおける対数尤度の値を用いる.実験により,方言音声認識用言語モデルを用いて方言音声の認識精度が向上することを確認した.また,対数尤度と音声認識精度に強い相関があること,対数尤度を最大化する混合比を発話ごとに選択することで,固定混合比の場合と比較して音声認識精度が向上することを確認した.
- 2014-07-15
著者
-
糸山 克寿
京都大学大学院情報学研究科
-
奥乃 博
京都大学大学院
-
吉野 幸一郎
京都大学大学院情報学研究科
-
森 信介
京都大学大学院情報学研究科
-
森 信介
京都大学大学院情報学研究科|京都大学学術情報メディアセンター
-
平山 直樹
京都大学大学院情報学研究科
関連論文
- 複数の言語モデルと言語理解モデルによる音声理解の高精度化(音声認識・理解,情報爆発論文)
- 4Q-2 音声認識と言語理解を動的に選択する音声理解フレームワーク(音声対話・音声要約,学生セッション,人工知能と認知科学)
- 複数の言語モデル・言語理解方式を用いた音声理解の高精度化(理解)
- LE-008 音声認識結果とコンセプトへの重みづけによるWFSTに基づく音声言語理解の高精度化(自然言語・音声・音楽)
- 音声認識結果とコンセプトへの重みづけによるWFSTに基づく音声言語理解の高精度化(学生セッション I)
- マルチドメイン音声対話システムにおける対話履歴を利用したドメイン選択(音声言語)
- 5Q-3 神経回路モデルを用いた音声模倣モデルによる音声バブリングと母音獲得過程シミュレーション(ニューラルネット(1),学生セッション,人工知能と認知科学)
- ロボット聴覚オープンソースソフトウエアHARK
- 人工神経回路モデルと声道物理モデルを用いた母音模倣モデルに基づく音素獲得シミュレーション
- 残響下でのバージイン発話認識のための多入力独立成分分析を応用したロボット聴覚
- 4ZC-2 楽器の内部モデルに基づくフィードフォワード制御によるテルミン演奏ロボットの開発(身体,学生セッション,コンピュータと人間社会)
- 3Y-2 顔追跡による音環境可視化システムのアウエアネスの改善(アンビエント・インタフェース,学生セッション,インタフェース)
- 5S-1 RNNを備えた2体の小型ロボット間の首振り動作と音声によるインタラクションにおける共有シンボルの創発(認知・推論・探索,学生セッション,人工知能と認知科学)
- 5R-7 歌唱ロボットのためのビート情報とメロディ・ハーモニー情報の統合による音楽音響信号と楽譜の実時間同期手法の開発(音楽検索・解析,学生セッション,人工知能と認知科学)
- 5R-6 ベース音高確率とクロマベクトルの相関を考慮した和音進行認識(音楽検索・解析,学生セッション,人工知能と認知科学)
- 4R-2 音色特徴量に基づく調波・非調波統合モデルによる楽器音モーフィング(音楽演奏・生成,学生セッション,人工知能と認知科学)
- 4R-1 連続発音中の音色変化に着目した未学習譜面上への演奏信号生成(音楽演奏・生成,学生セッション,人工知能と認知科学)
- 4Q-4 音声対話システムにおける想定外発話の文法検証を用いた対話行為推定に基づくヘルプ生成(音声対話・音声要約,学生セッション,人工知能と認知科学)
- 4Q-3 実環境音声対話システムにおけるバージイン発話タイミングを活用した指示対象の同定(音声対話・音声要約,学生セッション,人工知能と認知科学)
- 3D-3 ロボットによる卓上物体操作のためのRNNを用いた道具身体化モデルの構築(人工知能(1),一般セッション,人工知能と認知科学)
- 5ZC-6 本質的に異なる数独解盤面の列挙と番号付け(エンタテインメントコンピューティング,学生セッション,コンピュータと人間社会)
- 調波構造と音源方向に基づく音源分離法における残響耐性の改善(音響と音声処理,音声強調,ロバスト音声認識)
- ロボット聴覚の現状と展望
- ロボットを対象としたビートトラッキング法の提案とその音楽ロボットへの応用
- 4.音楽ロボットのための実時間音楽情報処理(音楽情報処理技術の最前線)
- 単一テンプレート適応法による音楽音響信号を対象としたハイハットシンバルの音源同定(音楽音響信号認識)
- 6U-5 フィールドにおける音源定位のための音声視覚化デバイス「カエルホタル」の設計(ネットワーク応用,学生セッション,ネットワーク)
- ドラムパターン推定によるドラム音認識誤り補正手法
- テンプレート適応を利用した実世界の音楽音響信号に対するドラムスの音源同定
- ニホンアマガエルの同期した発声行動に関する実験的研究およびその数理モデル解析
- 移動型および静止型マイクロホンアレイ統合による複数移動音源追跡
- 楽譜情報を援用した多重奏音楽音響信号の音源分離と調波・非調波統合モデルの制約付きパラメータ推定の同時実現(音楽情報,新しいパラダイムの中での分散システム/インターネット運用・管理)
- 自己組織化マップによる教師なしクラスタリングを利用したドラム演奏の自動採譜(音楽音響信号認識/生成1)
- ゲーム理論に基づく参照結束性のモデル化と日本語・英語の大規模コーパスを用いた統計的検証
- インターネットワークにおける正しい電子メールアドレスを教えるシステム : Nuewildの構想
- 音高による音色変化を考慮した楽器音の音高・音長操作手法(演奏分析・支援・加工)
- デモンストレーション : 若手による研究紹介V(音楽音響信号処理 (1))
- 楽曲推薦システムの効率性とスケーラビリティの改善のための確率的推薦モデルのインクリメンタル学習法(検索・推薦)
- LinuxによるBeowulfクラスタ構築格闘記
- 2D-1 ソフトマスクと音響モデル適応を用いた3話者同時発話音声認識(音声・音楽情報処理,一般セッション,人工知能と認知科学)
- 音声対話システムにおける簡略表現認識のための誤認識増加を抑制する自動語彙拡張(学生セッション II)
- 3U-5 音声対話システムにおけるユーザの固有名詞の簡略化に対処する語彙拡張(音声言語情報処理,学生セッション,人工知能と認知科学)
- デモンストレーション:若手による研究紹介IV
- テルミンの音高・音量特性のモデルに基づくテルミン演奏ロボットの開発
- 複数の編集距離を用いた口語翻訳文の自動評価
- RNNを備えた2体のロボット間における身体性に基づいた動的コミュニケーションの創発
- 2X-8 音楽と自分の声を聞き分けながらビートに合わせて発声するロボットの開発(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- Query-by-Conducting:テンポ類似性に基づく同一楽曲における多様な解釈の検索インタフェース
- 多重奏音響信号中の演奏をユーザー指定の旋律に差し替えるフレーズ置換システム
- 音声対話システムにおけるラピッドプロトタイピングを指向したWFSTに基づく言語理解
- バージイン許容音声対話システムにおけるユーザ発話の分析と指示対象同定への応用
- SpeakBySinging: 歌声を話声に変換する話声合成システム
- 歌声GMMとビタビ探索を用いた多重奏中のボーカルパートに限定した基本周波数推定手法(音楽音響信号処理 (1))
- 多重奏音楽音響信号の音源分離のための調波・非調波モデルの制約付きパラメータ推定(認識・測定)
- 多重奏音楽音響信号の音源分離のための調波・非調波モデルの制約付きパラメータ推定(認識・測定)
- パネル討論会 : 人工知能とプログラミングの接点
- 複数の言語モデルと言語理解モデルによるラピッドプロトタイピング向け音声理解
- 楽曲の特徴量抽出と検索技術
- マルチメディアコンテンツにおける音楽と映像の調和度計算モデル
- 多重奏を対象とした音源同定 : 混合音テンプレートを用いた音の重なりに頑健な特徴量への重み付け及び音楽的文脈の利用(画像認識,コンピュータビジョン)
- Instrogram : 発音時刻検出とF0推定の不要な楽器音認識手法
- 伴奏書抑制と高信頼度フレーム選択に基づく楽曲の歌手名同定手法(音楽情報,情報処理技術のフロンティア)
- 伴奏音抑制と高信頼度フレーム選択に基づく楽曲中の歌声の歌手名同定手法
- 混合音テンプレートを用いた多重奏の音源同定(音楽音響信号認識)
- 和音区間検出と和音名同定の相互依存性を解決する和音認識手法(音楽音響信号認識)
- 音高による音色変化に着目した楽器音の音源同定:FO依存多次元正規分布に基づく識別手法(音楽情報)
- 音響的特徴に基づく楽器の階層表現の獲得とそれに基づくカテゴリーレベルの楽器音認識の検討(音楽音響信号認識/生成1)
- 特集「インターネット」の編集にあたって(特集●インターネット)
- バージイン許容音声対話システムにおけるユーザ発話の分析と指示対象同定への応用
- AAAI-98参加報告
- 特集「インターネット」の編集にあたって(特集・インターネット)
- 調波構造と音源方向に基づく音源分離法における残響耐性の改善(音響と音声処理,音声強調,ロバスト音声認識)
- 音オントロジーに基づいた音環境理解システムの統合 (「オントロジーの基礎と応用」)
- 多重奏楽曲の楽器音量バランス変化による音楽ジャンルシフト
- 複数楽器混合モデルのパラメータ推定と楽器名同定への応用
- 残差スペクトルモデルによる伴奏・残響成分抑制に基づいた楽器演奏分析合成の高精度化
- 音響信号と音楽的制約を統合したバイオリンの演奏弦系列の推定
- 音色の音高依存性を考慮した楽器音の音高操作手法
- 楽器音イコライザによる音色の類似度に基づく楽曲検索システム(音響分析一般(2))
- 4X-4 音楽と映像の調和度計算モデルを用いたクロスメディア検索(音楽情報科学(3)検索・インタフェース,学生セッション,人工知能と認知科学)
- 2X-7 楽器固有の音響的特徴を考慮した楽器音の音高操作手法(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- 2X-6 複数楽器個体による事前分布を用いた調波・非調波統合モデルのパラメータ推定(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- 2X-5 ベース音高を考慮したポピュラー音楽に対する和音進行認識(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- 音色特徴量分布の利用による調波・非調波統合モデルのパラメータ推定(音楽音響信号処理 (2))
- 階層的句アラインメントを用いた統計的機械翻訳(自然言語処理)
- 生成方向を考慮した統計的機械翻訳のためのデコーディングアルゴリズム(自然言語)
- 独立成分分析に基づく適応フィルタのロボット聴覚への適用
- 音声認識結果とコンセプトへの重みづけによるWFSTに基づく音声言語理解の高精度化(学生セッション I)
- 遺伝的アルゴリズムを用いたパラメータ最適化による話者位置に基づく同時発話認識の向上
- 3D-4 公的討議の書き起こし議事録を用いた懸案事項共有化フレームワーク(自然言語処理(1),一般セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- ゲーム理論による中心化理論の解体と実言語データに基づく検証
- 6J-6 楽器音イコライザによる楽曲音響特徴変動と類似楽曲検索への応用(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 5T-5 調波非調波GMMに基づくMIDI演奏音響信号に対する音色・演奏表情操作(音楽信号処理,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 6U-1 F0・振幅・音韻長の制御により歌声を話声に変換する話声合成システムSpeakBySinging(音声・歌声合成,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 歌詞と音響特徴量を用いた楽曲印象軌跡推定法の設計と評価
- 多重奏音楽音響信号に対する楽器音の分離とその応用(AI応用(音楽),人工知能分野における博士論文)
- 音声中の任意検索語検出のための未知語区間推定に基づく選択的インデックス統合法
- 音響特徴・ベース音・和音遷移を用いた自動和音認識
- スペクトル変化量のピーク間隔・F0・MFCCを用いた歌声と朗読音声の自動識別システム
- 擬似生成した複数方言言語モデル混合による混合方言音声認識