2P1-G03 Segmenting Sound Signals and Articulatory Movement using Recurrent Neural Network toward Phoneme Acquisition
スポンサーリンク
概要
- 論文の詳細を見る
This paper proposes a computational model for phoneme acquisition by infants. Infants perceive speech not as discrete phoneme sequences but as continuous acoustic signals. One of critical problems in phoneme acquisition is the design for segmenting these continuous speech. The key idea to solve this problem is that articulatory mechanisms such as the vocal tract help human beings to perceive sound units corresponding to phonemes. To segment acoustic signal with articulatory movement, our system was implemented by using a physical vocal tract model, called the Maeda model, and applying a segmenting method using Recurrent Neural Network with Parametric Bias (RNNPB). This method determines segmentation boundaries in a sequence using the prediction error of the RNNPB model, and the PB values obtained by the method can be encoded as kind of phonemes. Experimental results demonstrated that our system could self-organize the same phonemes in different continuous sounds. This suggests that our model reflects the process of phoneme acquisition.
- 一般社団法人日本機械学会の論文
- 2008-06-06
著者
関連論文
- 複数の言語モデルと言語理解モデルによる音声理解の高精度化(音声認識・理解,情報爆発論文)
- 5Q-3 神経回路モデルを用いた音声模倣モデルによる音声バブリングと母音獲得過程シミュレーション(ニューラルネット(1),学生セッション,人工知能と認知科学)
- ロボット聴覚オープンソースソフトウエアHARK
- 人工神経回路モデルと声道物理モデルを用いた母音模倣モデルに基づく音素獲得シミュレーション
- 残響下でのバージイン発話認識のための多入力独立成分分析を応用したロボット聴覚
- 4ZC-2 楽器の内部モデルに基づくフィードフォワード制御によるテルミン演奏ロボットの開発(身体,学生セッション,コンピュータと人間社会)
- 3Y-2 顔追跡による音環境可視化システムのアウエアネスの改善(アンビエント・インタフェース,学生セッション,インタフェース)
- 5S-1 RNNを備えた2体の小型ロボット間の首振り動作と音声によるインタラクションにおける共有シンボルの創発(認知・推論・探索,学生セッション,人工知能と認知科学)
- 5R-7 歌唱ロボットのためのビート情報とメロディ・ハーモニー情報の統合による音楽音響信号と楽譜の実時間同期手法の開発(音楽検索・解析,学生セッション,人工知能と認知科学)
- 5R-6 ベース音高確率とクロマベクトルの相関を考慮した和音進行認識(音楽検索・解析,学生セッション,人工知能と認知科学)
- 5R-5 A Music Retrieval Approach from Alternative Genres of Query by Adjusting Instrument Volume
- 4R-2 音色特徴量に基づく調波・非調波統合モデルによる楽器音モーフィング(音楽演奏・生成,学生セッション,人工知能と認知科学)
- 4R-1 連続発音中の音色変化に着目した未学習譜面上への演奏信号生成(音楽演奏・生成,学生セッション,人工知能と認知科学)
- 4Q-4 音声対話システムにおける想定外発話の文法検証を用いた対話行為推定に基づくヘルプ生成(音声対話・音声要約,学生セッション,人工知能と認知科学)
- 「ロボット聴覚」特集について
- 5ZC-6 本質的に異なる数独解盤面の列挙と番号付け(エンタテインメントコンピューティング,学生セッション,コンピュータと人間社会)
- Inter-modality mapping in robot with recurrent neural network
- 調波構造と音源方向に基づく音源分離法における残響耐性の改善(音響と音声処理,音声強調,ロバスト音声認識)
- ロボット聴覚の現状と展望
- ロボットを対象としたビートトラッキング法の提案とその音楽ロボットへの応用
- ニホンアマガエルの同期した発声行動に関する数理的研究および音響信号解析 (第5回生物数学の理論とその応用)
- 4.音楽ロボットのための実時間音楽情報処理(音楽情報処理技術の最前線)
- ロボットを対象とした二階層視聴覚統合音声認識システム (第27回日本ロボット学会学術講演会論文特集号(2))
- 音声対話による大規模知識ベース検索システム : 音声版ダイアログナビ(音・音声インタフェース)
- 発話行為レベルの情報を活用した音声対話システムの研究
- 4R-3 Probabilistic Classification of Monophonic Instrument Playing Techniques
- 複数の言語モデルと言語理解モデルによる音声理解の高精度化
- LinuxによるBeowulfクラスタ構築格闘記
- 神経回路モデルの感覚・行為予測に基づく空間認知モデル
- 多重奏中の歌声の基本周波数と有声音素の同時推定手法
- テルミンの音高・音量特性のモデルに基づくテルミン演奏ロボットの開発
- RNNを備えた2体のロボット間における身体性に基づいた動的コミュニケーションの創発
- Query-by-Conducting:テンポ類似性に基づく同一楽曲における多様な解釈の検索インタフェース
- 多重奏音響信号中の演奏をユーザー指定の旋律に差し替えるフレーズ置換システム
- バージイン許容音声対話システムにおけるユーザ発話の分析と指示対象同定への応用
- SpeakBySinging: 歌声を話声に変換する話声合成システム
- 楽曲の特徴量抽出と検索技術
- 特集「インターネット」の編集にあたって(特集●インターネット)
- バージイン許容音声対話システムにおけるユーザ発話の分析と指示対象同定への応用
- AAAI-98参加報告
- 特集「インターネット」の編集にあたって(特集・インターネット)
- 調波構造と音源方向に基づく音源分離法における残響耐性の改善(音響と音声処理,音声強調,ロバスト音声認識)
- 音オントロジーに基づいた音環境理解システムの統合 (「オントロジーの基礎と応用」)
- 多重奏音響信号中の演奏をユーザー指定の旋律に差し替えるフレーズ置換システム
- 3D-4 公的討議の書き起こし議事録を用いた懸案事項共有化フレームワーク(自然言語処理(1),一般セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- SpeakBySinging : 歌声を話声に変換する話声合成システム
- 特集「マルチエージェントと協調計算」の編集にあたって ( マルチエージェントと協調計算)
- 5T-4 調波GMMとWienerフィルタに基づく音楽音響信号の残響抑圧(音楽信号処理,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 6T-7 Robot Musical Accompaniment : Real-time Synchronization using Visual Cue Recognition
- 6T-8 複数自由度を用いて音高特性モデルに基づく音高制御を行うテルミン演奏ロボットの開発(音楽推薦・演奏支援,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- ロボット聴覚--高雑音下でのハンズフリー音声認識 (音声)
- 3U-2 複数の言語モデルと言語理解モデルによる音声理解手法のラピッドプロトタイピングへの適用(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 6J-6 楽器音イコライザによる楽曲音響特徴変動と類似楽曲検索への応用(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 5T-5 調波非調波GMMに基づくMIDI演奏音響信号に対する音色・演奏表情操作(音楽信号処理,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 柔軟な言語モデルとマッチングを用いた音声によるレストラン検索システム
- 5V-6 RNNを用いた行為予測による人間とロボットの協調物体配置(人工知能一般(4),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 6U-1 F0・振幅・音韻長の制御により歌声を話声に変換する話声合成システムSpeakBySinging(音声・歌声合成,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- AI-1-3 ロボット聴覚オープンソースソフトウエアHARK(AI-1.マルチモーダル信号処理とその応用,依頼シンポジウム,ソサイエティ企画)
- 6J-8 実環境音声認識のためのロボット聴覚システム開発とパラメータチューニング(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 6J-7 ロボット音声対話におけるSemi-blind ICAを用いた自己発話キャンセル(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 2ZN-2 バージイン許容音声対話におけるLSMによる許容発話範囲の拡張(情報爆発時代における対話インタラクション,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 6X-2 RNNPBによる音響模倣・分節化を用いた音素獲得モデルの提案(音声・言語処理,学生セッション,人工知能と認知科学)
- 6W-8 MTRNNを用いた単語と文法の階層的自己組織化による文の認識・生成(構文解析・生成・学習,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 5U-9 ユーザの文法知識を状態に加えたPOMDPに基づく音声対話システム(音声インタフェース・システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 「第1回インターネットテクノロジーワークショップWIT'98」報告
- 3U-9 環境音から擬音語への自動変換における特徴量抽出法の検討(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3U-7 スペクトル推定を用いたマイク数以上の同時発話に対する音声認識(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- BDDの制約順序の効率化による制約充足問題の解法
- 全米人工知能会議 AAAI-96 報告
- ベース音高と和音特徴の統合に基づく和音系列認識
- 多数の人の声を一度に聞き分ける聴覚技術 : —聖徳太子ロボットを目指して—
- ロボット聴覚用オープンソースソフトウェアHARKの展開 (特集 世界に飛び出す日本のソフトウェア)
- MAHL:演奏者間のインタラクション分析のためのスコアアライメント手法の提案
- 歌詞と音響特徴量を用いた楽曲印象軌跡推定法の設計と評価
- ドメイン外発話が扱え拡張性が高い対話ドメイン選択フレームワーク
- ドメイン外発話が扱え拡張性が高い対話ドメイン選択フレームワーク
- 算術論理式システムBEM-2を使ってパズルを解こう
- コラム「計算機科学とインターネット」の開設にあたって
- コンピュータサイエンスから見た聴覚の情景分析 (聴覚の情景分析)
- 一人工知能研究者のインターネット活用法 (「人工知能研究者のためのインターネット活用術」)
- 小特集「人工知能研究者のためのインターネット活用術」にあたって
- 東日本大震災 危機発生時の対応について考える:15.災害復旧支援・原子力事故対策ロボット
- ぺた語義:京大における Lisp を使ったプログラミング教育
- 視聴覚統合ビートトラッキングを用いた音楽ロボットとギターとの合奏システム
- 81-39 Z-95%プログラムエディタ
- 81-37(1) 何故, LISPに基づいたコマンド言語がよいのか
- ロボットを対象とした二階層視聴覚統合音声認識システム
- 多重奏中の歌声の基本周波数と音素を同時に推定可能な新たなフレームワーク
- AS-5-3 確率的定式化と歌声の統計的モデル化によるボーカルパートの基本周波数推定手法(AS-5. 音響信号のモデリングと表現,シンポジウムセッション)
- 多数の人の声を一度に聞き分ける聴覚技術 : 聖徳太子ロボットを目指して
- 1P1-G13 ロボット聴覚用オープンソースソフトウェアHARKの概要(コミュニケーション・ロボット)
- ロボット聴覚 : 高雑音下でのハンズフリー音声認識(オーガナイズドセッション,一般,オーガナイズドセッション(雑音を消せ!騒音下で有効な音声信号処理とは))
- 音楽共演ロボット:開始・終了キューの画像認識による人間のフルート奏者との実時間同期
- 音声対話システムにおける 簡略表現認識のための自動語彙拡張
- フレーズ置換のための調波非調波GMM・NMFに基づく音源分離・演奏合成
- 発語行為レベルの情報をユーザ発話の解釈に用いる音声対話システム
- 「インターネット技術」の編集にあたって (インターネット技術)
- 2P1-G03 Segmenting Sound Signals and Articulatory Movement using Recurrent Neural Network toward Phoneme Acquisition
- 方言対訳コーパスを用いた日本語方言音声認識システム(言語モデル・音声対話)