中国語音声認識における音素環境のモデリング
スポンサーリンク
概要
- 論文の詳細を見る
トライフォンモデルを中国語音声認識に応用する場合、出現するモデルの数が膨大となり、モデルの学習を十分に行うことは難しい。そのため、タスクの変更により音素環境のミスマッチが生じた場合、認識性能は大きく劣化する。そこで我々は音響環境を考慮し、調音特性をもとに音素環境を分類するとともに、この分類に対し適当な調音質問による文脈分類木を作成した。これにより音響モデルをデータ駆動クラスタリングにより状態共有することで、モデル数を大幅に削減することが可能となり、タスクの変更に伴う音素環境のミスマッチに関する問題を解決することができた。タスク依存データ・非依存データを用いた認識実験の結果、タスク非依存データにおいて14%の誤り改善率を得るとともに、タスク依存データに対して性能の劣化が無いことを確認した。
- 一般社団法人情報処理学会の論文
- 2001-02-02
著者
-
匂坂 芳典
早稲田大学国際情報通信研究科
-
匂坂 芳典
Atr音声言語コミュニケーション研究所:(現)早稲田大学大学院
-
中村 哲
ATR音声言語通信研究所
-
張 勁松
Atr音声言語コミュニケーション研究所
-
チョウ キンソン
Atr音声言語コミュニケーション研究所
-
中村 哲
Atr音声口語コミュニケーション研究所
-
匂坂 芳典
ATR 音声言語通信研究所
-
張 樹午
ATR音声言語通信研究所
関連論文
- 日本人学習者による英語のリズム制御におけるモーラの影響(感情音声,韻律,声質,音声生成・知覚,脳機能,一般)
- ことばとコミュニケーション(音叉)
- 統計的翻訳評価尺度に基づく日英翻訳文の訳質分析(機械翻訳)
- 未知固有表現を含む音声の認識([特別セッション]音声言語獲得・学習技術(2), 未知語処理)
- 複数のマルコフモデルを用いた階層化言語モデルによる未登録語認識(音声、聴覚)
- 話題と文型の違いを同時に考慮した言語モデル適応
- 構造化言語モデルとその実装
- 対話者の前発話を利用した統計的言語モデル
- クラスに依存した語彙の確率的記述に基づく階層型言語モデル
- 2つの単語クラスから生じた未登録語のサブワードモデルによる音声認識
- 自動音韻セグメンタの時間精度評価 : ラベル尤度との相関と誤差の音韻文脈依存性
- サブワードネットワークに基づく未登録語処理を搭載したデコーダの構築
- 大語彙連続音声認識における未知語のsub-wordモデリング手法
- インタラクティブ・システムにおける状況的な行為とその協調計算 (音声言語情報処理)
- 日本人英語学習者音声の時間制御特性客観評価(音声生成・知覚,聴覚心理,音声学・音韻論,一般)
- ニューラルネットワークと言語統計量に基づく発音辞書の自動生成
- スポーツオノマトペの実態について
- スポーツ指導者・体育学習者のためのオノマトペ辞典の開発
- 大語彙連続音声認識における未知語のsub-wordモデリング手法
- 局所的句構造に基づくF_0制御
- 音声翻訳システム : ATR-MATRIXの開発と評価(音声言語情報処理とその応用)
- ATR-MATRIXと人間との音声翻訳能力比較法の誤差に関する検討
- 日英音声翻訳システム ATR MATRIX
- ATRの新音声言語データベース
- 中国語単語音声からの基本周波数制御コマンドの自動抽出
- 発声スタイル並行コーパスを用いた発音変形の分析
- 複数話者の音声データベースから自動生成されたF_0制御規則の分析
- 臨界制動モデルパラメータの分布特性を用いたフレーズ境界の自動推定のための尺度の検討
- 統計的手法を用いた基本周波数パタン制御指令の自動分類
- D-14-11 日本人学習者に見られる中国語声調制御難易度の分析(D-14. 音声,一般セッション)
- 対話音声合成を目指した対話音声の韻律分析
- 発話スタイル並列コーパスを用いた発音変形の分析
- 対話音声を対象とした連続音声認識システムの試作と評価
- 旅行会話タスクにおけるTARSPRECの性能評価
- リカレントニューラルネットワークを用いたセグメント境界推定
- 携帯電話型音声翻訳システムATR-MATRIX
- クライアント・サーバ型ATR-MATRIX
- 日英音声翻訳システムATR-MATRIXにおける音声認識用音響・言語モデル
- 異種言語知識の併用による文法的単語グラフ生成法
- 異種言語知識の併用による局所的信頼性向上
- 異種言語知識の併用による局所的信頼性向上
- 異種言語知識の併用による局所的信頼性向上
- 異種言語知識の併用による局所的信頼性向上
- MCE/GPDを用いた自然発話音声認識における不特定話者音響モデルの改善
- 発話情報を用いたF0制御パラメータの自動推定
- 音声合成のための規則とデータの表現, 獲得, 評価(音声情報処理 : 現状と将来技術論文特集)
- 大語い連続音声認識のための単語仮説数削減
- Delayed decisionビーム探索の検討
- 単語グラフと可変長N-gramを用いた大語彙自然発話音声認識
- 単語グラフを用いた自由発話音声認識
- 単語グラフを用いた自由発話音声認識
- 単語グラフを用いた連続音声認識法
- 地域や年齢的な広がりを考慮した大規模な日本語音声データベース
- 基本周波数パタンに見られる発話態度の分析(対話)
- 基本周波数パタンに見られる発話態度の分析(対話)
- 文中の音韻長伸縮の自然性許容に対する発話速度の効果(聴覚・音声・言語とその障害)
- コーパスベース音声合成技術の動向[I] : コーパスベース音声合成の過去・現在・将来(自然な音声合成システム構築のための枠組み)
- 文音声における音韻長の制御特性と知覚特性との対応関係
- 英語発話リズム客観評価に向けた音響特徴の分析
- 日本人発話英語のリズム客観評価モデル
- 大規模日本語音声データベースの構築と評価
- 文中の音韻長伸縮の自然性許容に対する文節内位置の効果
- 認知計算モデルとしての音声技術
- クラスタされた音響モデルによる中国語音声認識
- 中国語音声認識における音素環境のモデリング
- 中国語音声認識のための基本的な音響単位の調査
- 音声の生成モデルを用いた話者正規化手法(音声情報処理 : 現状と将来技術論文特集)
- 大規模な日本語音声データによる音響モデルの分析
- 音声の生成モデルを用いた話者正規化手法
- 声道形状の特徴量に着目した話者適応手法
- 声道の特徴量を用いた話者クラスタリング手法の検討
- 声道の特徴量を用いた話者クラスタリング手法の検討
- 声道の特徴量を用いた話者クラスタリング手法の検討
- 確率文脈自由文法を用いた韻律句境界とポーズ位置の予測
- 確率文脈自由文法を用いた韻律句境界の推定
- 混合分布セグメントモデルのためのモデルパラメータ推定法
- インタラクティブ・システムにおける適応行動
- インタラクティブ・システムにおける主体性と適応行動
- 文音声における音韻長伸縮の許容度に対する文節内位置の効果
- 語彙が与える印象に基づく対話韻律生成
- 3次元ビタビ探索に基づく話者正規化手法
- 音素境界推定ネットワークを利用した音声の自動セグメンテーション
- リカレントニューラルネットワークを用いた音素境界推定と音声認識への応用
- ACOUSTIC MODELS FOR SPEECH RECOGNITION : A SURVEY
- 発音ネットワークに基づく発音辞書の自動生成
- SCALAR QUANTIZATION OF CEPSTRAL PARAMETERS FOR LOW BANDWIDTH CLIENT-SERVER SPEECH RECOGNITION SYSTEMS
- 位置依存単語クラスタと頻出単語列を用いた多重クラス複合3-gram言語モデル
- ドメインの多次元性を考慮した言語モデル適応
- 句構造間の関係を反映した言語モデル
- 品詞接続特性と単語接続特性の最大事後確率推定による融合に基づく単語クラス分類
- 多重クラスTrigram構築のための効率的な自動クラスタリング手法
- 多重クラスTrigram構築のための効率的な自動クラスタリング手法
- 複数決定木の動的順序付けに基づく発話の概念推定 (音声言語情報処理)
- 統計的手法による認識結果から中間表現への変換を用いた音声理解システム
- 決定木を用いた発話の意味タグ推定
- A2.韓国人日本語学習者による日本語の促音の聴取訓練の効果(研究発表,音声学会2009年度(第23回)全国大会発表要旨)
- 日本語特殊拍の知覚学習システムを利用した聴取訓練の効果(第319回研究例会発表要旨)
- 英語学習者音声のリズムの評価に用いるテキストの必要条件
- 対話音声合成を目指した対話音声の韻律分析
- 促音挿入判断に着目した韓国語母語話者による日本語促音の知覚特性 : 韓国語の濃音化との関連性を中心に(聴覚一般,聴覚・音声・言語とその障害/一般)