アクセント特徴量を用いた歌声と朗読音声の識別システム
スポンサーリンク
概要
- 論文の詳細を見る
アクセント特徴量を用いて歌声と歌詞の朗読音声を識別するシステムを開発した.システムの入力は雑音を含まない単独音声,出力は歌声か朗読音声かの2値である.我々はリズム構造が歌声と朗読音声で聴感上異なることに着目し,リズムと関連が強いと考えられるアクセント特徴量を識別に用いた.この特徴量は音響的な時間変化の大きい部分,例えば音素境界や発話開始時間で極大値(ピーク)を持つ.隣り合うアクセントピークの時間間隔と,アクセント強度の分布をそれぞれ混合ガウス分布でモデル化し,2つの識別機を設計した.実験の結果,約10秒の音声に対し,ピーク時間間隔を用いた識別機では89.2%,アクセント強度を用いた識別機では59.7%の精度であった.
- 2012-03-06
著者
関連論文
- 複数の言語モデルと言語理解モデルによる音声理解の高精度化(音声認識・理解,情報爆発論文)
- 第23回日本雪工学会大会発表論文講評
- 発話行為レベルの情報を活用した音声対話システムの研究
- 音声分離と楽音分離の統合のための音オントロジーの提案
- 背景音楽つき音声に対する音響ストリームの分離
- 多重奏中の歌声の基本周波数と有声音素の同時推定手法
- テルミンの音高・音量特性のモデルに基づくテルミン演奏ロボットの開発
- RNNを備えた2体のロボット間における身体性に基づいた動的コミュニケーションの創発
- NueLinda Interpreter in NueLinda : 非均質システム NueLinda インタプリタの自己記述 (並列処理)
- NueLinda Interpreter in NueLinda : 非均質システム NueLinda インタプリタの自己記述
- Query-by-Conducting:テンポ類似性に基づく同一楽曲における多様な解釈の検索インタフェース
- 多重奏音響信号中の演奏をユーザー指定の旋律に差し替えるフレーズ置換システム
- バージイン許容音声対話システムにおけるユーザ発話の分析と指示対象同定への応用
- SpeakBySinging: 歌声を話声に変換する話声合成システム
- バージイン許容音声対話システムにおけるユーザ発話の分析と指示対象同定への応用
- 音声ストリーム分離法の提案と複数音声の同時認識の予備実験
- カクテルパーティ効果実現のための音響ストリーム分離の検討 : II.残差駆動型アーキテクチャの提案とモノラル音への適用
- カクテルパーティ効果実現のための音響ストリーム分離の検討 : I.音環境理解によるモデル化
- 緊急座談会「もし直下型地震が多雪時に起きたら? 」
- 031 塗装鋼板葺き勾配屋根における屋根雪の滑落確率に関する研究(屋根・雪荷重,講演研究論文、計画・技術報告)
- 22216 積雪地域の在来軸組構法住宅における屋根構面の耐震性に関する研究 : その1 既存住宅における屋根構面の耐震性と実物大試験体を用いた水平加力試験(屋根構面,構造III)
- 22211 在来軸組工法住宅における片流れ屋根の水平構面耐力に関する解析的研究(屋根構面,構造III)
- 6J-6 楽器音イコライザによる楽曲音響特徴変動と類似楽曲検索への応用(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 検索機能を内蔵した独立型・開放型文献集 : 10周年記念 CD-ROM 制作の経験
- 5V-6 RNNを用いた行為予測による人間とロボットの協調物体配置(人工知能一般(4),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 6U-1 F0・振幅・音韻長の制御により歌声を話声に変換する話声合成システムSpeakBySinging(音声・歌声合成,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- AI-1-3 ロボット聴覚オープンソースソフトウエアHARK(AI-1.マルチモーダル信号処理とその応用,依頼シンポジウム,ソサイエティ企画)
- 6J-8 実環境音声認識のためのロボット聴覚システム開発とパラメータチューニング(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 6J-7 ロボット音声対話におけるSemi-blind ICAを用いた自己発話キャンセル(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 2ZN-2 バージイン許容音声対話におけるLSMによる許容発話範囲の拡張(情報爆発時代における対話インタラクション,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 6W-8 MTRNNを用いた単語と文法の階層的自己組織化による文の認識・生成(構文解析・生成・学習,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 5U-9 ユーザの文法知識を状態に加えたPOMDPに基づく音声対話システム(音声インタフェース・システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- マルチエージェントによるマルチメディア通信サービスの適合的プラニング
- サービス管理システムにおけるプラニング機構
- 二分決定グラフ(BDD)による多重文脈型真偽維持システムBMTMS
- 二分決定グラフ(BDD)による真偽維持システムの実現
- 3U-9 環境音から擬音語への自動変換における特徴量抽出法の検討(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3U-7 スペクトル推定を用いたマイク数以上の同時発話に対する音声認識(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- Zero-suppressed-BDDによる制約充足問題解法の性質 : 組合せ集合演算による非単調性の解明
- マルチメディア時代における情報通信サービスのプラニング機構の検討
- マルチメディア通信サービスの適合的実時間プランニング機構の検討
- ベース音高と和音特徴の統合に基づく和音系列認識
- ロボット聴覚用オープンソースソフトウェアHARKの展開 (特集 世界に飛び出す日本のソフトウェア)
- 二分決定グラフ(BDD)による命題論理プログラミング
- MAHL:演奏者間のインタラクション分析のためのスコアアライメント手法の提案
- 歌詞と音響特徴量を用いた楽曲印象軌跡推定法の設計と評価
- 特集「並列処理」の編集にあたって
- ドメイン外発話が扱え拡張性が高い対話ドメイン選択フレームワーク
- ドメイン外発話が扱え拡張性が高い対話ドメイン選択フレームワーク
- N-Queens Game, Tangram and Tait's Problem (計算機によるパズル・ゲームの研究)
- 音環境理解研究 (CASA) へのいざない (AIチャレンジ)
- 二分決定グラフによる三面図からの3Dモデルの解釈
- ぺた語義:京大における Lisp を使ったプログラミング教育
- 視聴覚統合ビートトラッキングを用いた音楽ロボットとギターとの合奏システム
- ロボットを対象とした二階層視聴覚統合音声認識システム
- 25aHB-6 誘電体ランダム配置系におけるレーザ発振の有限要素解析(25aHB 領域5,領域1合同 フォトニック結晶,領域1(原子・分子,量子エレクトロニクス,放射線物理))
- 多数の人の声を一度に聞き分ける聴覚技術 : 聖徳太子ロボットを目指して
- 022 塗装鋼板葺き勾配屋根の雪荷重評価に関する研究 : 気象データを用いた屋根雪堆積日数の推定と年最大n日増分積雪深について(構造2,講演研究論文、計画・技術報告)
- ロボット聴覚 : 高雑音下でのハンズフリー音声認識(オーガナイズドセッション,一般,オーガナイズドセッション(雑音を消せ!騒音下で有効な音声信号処理とは))
- 位相限定相関法に基づく高精度ステレオビジョンを用いた投影画像の幾何補正(3次元画像処理,多視点画像処理,画像の認識・理解論文)
- 誘電体ランダム配置系におけるレーザ発振の有限要素解析
- 25aHB-6 誘電体ランダム配置系におけるレーザ発振の有限要素解析(25aHB 領域5,領域1合同フォトニック結晶,領域5(光物性))
- 1904 誘電体ランダム配置系における電磁波アンダーソン局在の有限要素解析(OS19. フォトニック・フォノニック構造の設計とシミュレーション(2),オーガナイズドセッション講演)
- 音楽共演ロボット:開始・終了キューの画像認識による人間のフルート奏者との実時間同期
- 音声対話システムにおける 簡略表現認識のための自動語彙拡張
- フレーズ置換のための調波非調波GMM・NMFに基づく音源分離・演奏合成
- 発語行為レベルの情報をユーザ発話の解釈に用いる音声対話システム
- 605 境界要素法の音響感度解析への応用(OS6. 境界要素法の高度化と最新応用(2),オーガナイズドセッション講演)
- 24aTN-1 フォトニック結晶レーザからランダムレーザへの遷移に関する研究(24aTN 領域5,領域1合同 フォトニック結晶,領域1(原子・分子,量子エレクトロニクス,放射線物理))
- 24aTN-1 フォトニック結晶レーザからランダムレーザへの遷移に関する研究(24aTN 領域5,領域1合同 フォトニック結晶,領域5(光物性))
- NueLindaモデルと自己記述による実装
- ベイジアン非負値調波因子分解と多重基本周波数推定への応用
- 押弦制約と運指制約を用いたタブ譜自動生成システム
- 2-2 混合音を聞き分けるセンシング技術(2.人間をセンシングする技術,人間を理解するためのICT技術-人間を対象としたセンシング・情報処理からその応用まで-)
- 誘電体ランダム配置系におけるレーザ発振の系内電場強度依存性に関する研究
- 20079 陸屋根を有する大規模建築物の屋根雪観測(雪荷重・耐雪設計(1),構造I)
- 20078 塗装鋼板葺き勾配屋根の雪荷重評価に関する研究 : 気象データを用いた屋根雪堆積日数の推定と年最大n日増分積雪深について(雪荷重・耐雪設計(1),構造I)
- 21477 巨大地震に対する超高層集合住宅の人・生活を守る技術の開発 : その5 家具の設置状況の違いが転倒挙動に与える影響(地震情報・防災(6):集合住宅の安全対策,構造II)
- 21476 巨大地震に対する超高層集合住宅の人・生活を守る技術の開発 : その4 家具の転倒による胸部損傷可能性に関する考察(地震情報・防災(6):集合住宅の安全対策,構造II)
- 21473 巨大地震に対する超高層集合住宅の人・生活を守る技術の開発 : その1 2011年東北地方太平洋沖地震による超高層集合住宅の揺れ(地震情報・防災(6):集合住宅の安全対策,構造II)
- 21475 巨大地震に対する超高層集合住宅の人・生活を守る技術の開発 : その3:振動台実験における人間応答量の定量的評価(地震情報・防災(6):集合住宅の安全対策,構造II)
- 21474 巨大地震に対する超高層集合住宅の人・生活を守る技術の開発 : その2 周辺環境が揺れの感覚に与える影響(地震情報・防災(6):集合住宅の安全対策,構造II)
- ロボット聴覚用オープンソースソフトウェア HARKの展開
- 22200 伝統的木造軸組構法による京町家の耐震性能 : 個別要素法を用いたシミュレーション解析(伝統建築物特性・設計法(2),構造III)
- ROS(Robot Operating System)を用いた音楽合奏ロボットシステムの構築(ビッグデータで変わる環境知能とロボット,及びその他一般)
- 22180 北海道の在来軸組構法住宅における積雪期の耐震性に関する研究 : 雪荷重が耐震診断における壁の耐力低減係数と評点に及ぼす影響について(住宅の耐震診断・補強(2),構造III,2012年度大会(東海)学術講演会・建築デザイン発表会)
- 方言対訳コーパスを用いた日本語方言音声認識システム(言語モデル・音声対話)
- スペクトル変化量のピーク間隔・F0・MFCCを用いた歌声と朗読音声の自動識別システム
- 604 境界要素法とSakurai-Sugiura法によるHelmholtz方程式の非線形固有値解析(OS6.境界要素法の高度化と最新応用(1),OS・一般セッション講演)
- 1303 フォトニック結晶レーザからランダムレーザへの遷移に関する研究(OS13.フォトニック・フォノニック構造の設計とシミュレーション(1),OS・一般セッション講演)
- アクセント特徴量を用いた歌声と朗読音声の識別システム
- マイク数以上の同時発話分離のための調波・非調波音源モデルの検討
- Kinectによる楽器マスキングを用いた視聴覚統合ビートトラッキング
- 楽曲印象軌跡に基づく楽曲検索システムの実装と評価
- パーティクルフィルタを用いた動的環境下の複数音源追跡