不特定話者混合分布HMMにおけるTree-Basedクラスタリングの検討
スポンサーリンク
概要
- 論文の詳細を見る
Tree-basedクラスタリングは,音素コンテキストを分割条件としてトライフォンの集合に対してクラスタリングを行いHMM状態の共有化を図る有効な手法である.従来の報告では,計算量の点から対象が単一分布HMMに限られていた.しかし,単一分布HMMでは不特定話者の音響的特徴を表現するのに不十分であるため,必ずしも適切なトポロジ(HMM状態の共有関係)が得られていないと考えられる.また所望の混合分布トライフォンを得るためには,tree-basedクラスタリングの後,混合数を倍増する操作と学習を繰り返すため膨大な時間を要する.そこで,本稿では混合分布トライフォンに対して分布のクラスタリングを行いながらtree-basedクラスタリングを行う手法を提案する.本手法により学習時間が1/3程度に短縮され,認識実験では1〜2%の音素正解精度の改善を確認した.
- 社団法人電子情報通信学会の論文
- 1999-12-20
著者
-
加藤 恒夫
株式会社KDDI研究所
-
樋口 宜男
KDD研究所
-
加藤 恒夫
KDDI研究所
-
清水 徹
情報通信研究機構:atr音声言語コミュニケーション研究所
-
樋口 宣男
Kdd研究所
-
黒岩 真吾
国際電電 研
-
黒岩 眞吾
徳島大学大学院ソシオテクノサイエンス研究部:独立行政法人情報通信研究機構知識創成コミュニケーション研究センター音声言語グループ
-
黒岩 眞吾
国際電信電話株式会社 上福岡研究所
-
清水 徹
知識創成コミュニケーション研究セ
関連論文
- 携帯型端末を用いた音声自動翻訳システムとフィールド実験(モバイルと放送の融合時代を迎えて(1セグ放送, モバイル放送, 携帯放送融合サービス, 1セグ対応携帯端末, モバイルコンテンツと放送コンテンツの融合, マルチメディア配信, ディジタル放送受信機, および一般))
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型Bluetooth通信方式 (ディペンダブルコンピューティング)
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型Bluetooth通信方式 (コンピュータシステム)
- 音楽情報検索向け類似テキスト検索システムの試作(音楽情報検索)
- 音声翻訳研究20年の夜明け : 受賞業績 携帯電話によるネットワーク型コーパスベース音声翻訳システムの構築(平成19年度喜安記念業績賞紹介)
- 2D-5 多言語音声翻訳基盤の通信インタフェースの検討と構築(音声対話・翻訳,一般セッション,人工知能と認知科学)
- 携帯電話音声に対する主観評価の精度及び客観評価尺度PESQの有効性の検証(一般)
- B-7-90 VoIPサービス向け通話品質評価手法
- 雑音の特徴分析に向けた実環境雑音データベースの構築
- ATR実環境雑音DB-ATRANS-を用いた雑音重畳音声認識実験(耐雑音)
- 背景雑音を含む携帯電話音声に対するMOS評価の精度推定とPESQの有効性検証
- 波形素片接続型音声合成システムの検討
- 携帯インターネットサービスのための音声認証システムの試作と評価
- B-20-60 パッシブ型超音波ポインティングシステムにおける追従性能の評価(B-20.ユビキタス・センサネットワーク,一般セッション)
- 2 携帯電話における分散型音声認識システムの実用化(音声認識技術の実用化への取り組み)
- 分散型音声認識の商用システム構築(特別企画「音声認識デベロッパーズフォーラム」)
- B-15-16 統合PDA端末の開発(6) : 分散型音声認証システムの実装(B-15. モバイルマルチメディア通信, 通信1)
- キーワードと音響的に類似したアンチキーワードを用いたキーワードスポッティングのリジェクション性能の改善
- 連続数字のパタン指定方式による時期差データに対する話者照合精度の改善
- 携帯インターネットサービスのための音声認証システムの試作と評価
- 携帯電話音声に含まれる雑音のモデル化による音声区間検出誤りの削減
- 混合分布HMMにおけるTree-basedクラスタリング(音声情報処理 : 現状と将来技術論文特集)
- D-14-9 電話音声認識を用いた株価情報案内システム
- SP2000-10 多数話者電話音声データベースを用いた話者クラスタリング
- 大語彙汎用音声認識エンジンの評価
- 大語彙汎用音声認識エンジンの開発
- 多数話者電話音声データベースを用いた話者クラスタリングの検討
- 不特定話者混合分布HMMにおけるTree-Basedクラスタリングの検討
- 不特定話者混合分布HMMにおけるTree-Basedクラスタリングの検討
- 不特定話者混合分布HMMにおけるTree-Basedクラスタリングの検討
- 音声信号の途切れ・オーバーフローへのMissing Feature Theoryの適用
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型Bluetooth通信方式
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型Bluetooth通信方式
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型Bluetooth通信方式
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型Bluetooth通信方式
- A-10-1 3次元位置推定に基づくパッシブ型超音波ポインティングシステムの構築(A-10. 応用音響,一般セッション)
- テキスト指定型話者照合におけるしきい値設定法(音声情報処理 : 現状と将来技術論文特集)
- 連続数字認識を利用した悪戯電話排除システム
- 音声認識のためのCS-ACELP符号の音響パラメータ変換方式
- 高齢者用HMMによる認識実験
- 話者モデル学習時の尤度上昇幅を用いた話者識別手法
- 話者モデル学習時の尤度上昇幅を用いた話者照合閾値設定法
- 複数N-gramの利用による音声認識性能改善効果
- 不特定話者混合分布HMMにおけるTree-Basedクラスタリングの検討
- 話者モデル学習時の尤度上昇幅を用いた話者照合閾値設定法
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型 Bluetooth 通信方式
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型 Bluetooth 通信方式
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型 Bluetooth 通信方式
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型 Bluetooth 通信方式
- 最ゆう状態系列を用いた実時間ケプストラム平均値正規化の検討
- リジェクションを用いた音声始端検出法の改良
- 電話音声認識におけるケプストラム平均値算出法の改良
- 最尤状態系列を用いた実時間ケプストラム平均値正規化の検討
- 時差・エリアコード案内システムの試作
- 発声内容を考慮した実時間ケプストラム平均値正規化の検討
- トピックス20 Speak & SpellとDECtalk(〈特集〉-音響学における20世紀の成果と21世紀に残された課題-)
- 連続数字認識における低認識率話者の分析
- 数字を用いた話者照合方式の検討
- 数字を用いた話者照合方式の検討
- 数字を用いた話者照合方式の検討
- RJ-006 注視行動の予測に向けた動画像コンテンツの視覚的特徴と実測した注視点の正準相関分析(J分野:ヒューマンコミュニケーション&インタラクション,査読付き論文)
- 文のクラスタリングに基づく統計的言語モデル
- 文クラスタ混合分布N-gramの検討
- 文クラスタ混合分布N-gramの検討
- 文クラスタ混合分布N-gramの検討
- パラメ-タ導出型日本語音声規則合成装置の評価 (新しい音声処理技術特集)
- テキスト編集機能付き音声規則合成装置の試作
- ワ-プロ機能付き音声規則合成装置--パソコント-ク
- 2010年度喜安記念業績賞紹介 : 第3世代携帯電話向けの分散型音声認識システムの実用化
- 基本周波数及び音素持続時間を考慮した音声合成用波形素片データセットの作成
- 隣接単語間の結合関係に着目したテキスト音声変換用形態素解析処理
- 音声器官の動きに着目した音素持続時間の制御
- ボイスダイヤリングシステムの現状 (コンピュータと通信)
- 電話網経由の連続数字音声の認識実験
- 電話網経由で収集した数字音声の認識実験
- 電話網経由の連続数字音声の認識実験
- 日本語文章音声の合成のための無声化規則
- 隣接音素の統計的性質に基づくホルマント型音声合成方式
- テキスト編集機能付き日本語音声規則合成装置における韻律制御
- パラメータ導出型日本語音声規則合成方式における調音制御
- 4-1 CGM動画像検索のための動き特徴の分散に基づいたハイライト区間抽出手法に関する考察(第4部門 メディア処理1)
- 5-7 ライトの反射光を利用した携帯電話向けユーザインタフェース(第5部門 メディア処理2)
- 歩行中でも操作しやすいウェアラブルディスプレイ向けインタラクションシステムの提案
- スマートフォン・タブレットによるスマート中国語学習教室の構築(大学教育の改善・FD)
- 24-1 自由視聴点技術に基づくスマートフォン向けミュージックビデオアプリケーション(第24部門デモセッション)
- 18-1 テレビ番組の探しやすさと選局の操作しやすさを特徴とする簡単リモコンGUIの試作と評価(第18部門[テーマ講演]人にやさしい情報メディア技術)
- J-056 加速度およびタッチパネルへの入力情報を用いた携帯端末の持ち手・打ち手判別(HCI(4),J分野:ヒューマンコミュニケーション&インタラクション)
- J-039 HMMに基づくフリックキーボード入力方式(インタフェース,J分野:ヒューマンコミュニケーション&インタラクション)
- カスタマイズ可能なテレビ番組表アプリの試作と評価
- カスタマイズ可能なテレビ番組表アプリの試作と評価
- カスタマイズ可能なテレビ番組表アプリの試作と評価
- カスタマイズ可能なテレビ番組表アプリの試作と評価
- Robust and Fast Search Algorithm for Lyric Search Covering Erroneous Queries due to Mishearing
- 音声合成のためのサブバンド符号化技術を用いた高速な波形生成(音声合成・音声再生,電気音響,信号処理,音声一般)
- 音声合成のためのサブバンド符号化技術を用いた高速な波形生成(音声合成・音声再生,電気音響,信号処理,音声一般)
- 音声合成のためのサブバンド符号化技術を用いた高速な波形生成(音声合成・音声再生,電気音響,信号処理,音声一般)
- タブレットデバイスにおける音声対話エージェントを用いたインタラクティブなレシピ検索インターフェイス(コミュニケーション支援及びヒューマン情報処理一般)
- タブレットデバイスにおける音声対話エージェントを用いたインタラクティブなレシピ検索インターフェイス(コミュニケーション支援及びヒューマン情報処理一般)
- 確率モデルに基づくキーボード入力方式
- 線形予測残差の尖度に基づく近端/遠端話者判別の提案(一般,時系列パターン認識,一般)