発音ネットワークに基づく発音辞書の自動生成
スポンサーリンク
概要
- 論文の詳細を見る
自然発話音声では,読み上げ発声では起こらないような,大きな発声変形を生じることがある.このような発声を音声認識しようとした場合,標準的な読みが付与された発音辞書を用いても,正しい認識結果は得られない.つまり,標準的な発音系列と実際に発声される発音系列のミスマッチを緩和する機構が必要である.本稿では,発声内容を標準的な辞書表記に基づいて書き起こした音素系列を標準発音系列とし, この発声を音素認識した結果の音素系列を修正発音系列と見なし, これらの対応関係を発音ネットワークとして構築し, この発音ネットワークを利用して発音辞書を自動的に生成する方法について述べる.本手法は, (1)学習データ中の発声数が少ない語彙に対しても信頼性の高い発音記号列が得られる, (2)任意の認識対象語彙の追加に対して,発音辞書を生成することができるなどの特徴をもつ.自然発話音声認識実験から, この発音ネットワークに基づいて自動生成した発音辞書は,認識性能,認識時間の両面において,従来の標準発音列に基づいた辞書よりも優れていることが分かった.
- 社団法人電子情報通信学会の論文
- 1996-12-12
著者
-
匂坂 芳典
Atr音声言語コミュニケーション研究所:(現)早稲田大学大学院
-
深田 俊明
ATR音声翻訳通信研究所
-
深田 俊明
Atr Interpreting Telecommunications Research Laboratories
関連論文
- 未知固有表現を含む音声の認識([特別セッション]音声言語獲得・学習技術(2), 未知語処理)
- 複数のマルコフモデルを用いた階層化言語モデルによる未登録語認識(音声、聴覚)
- 話題と文型の違いを同時に考慮した言語モデル適応
- 対話者の前発話を利用した統計的言語モデル
- サブワードネットワークに基づく未登録語処理を搭載したデコーダの構築
- 大語彙連続音声認識における未知語のsub-wordモデリング手法
- インタラクティブ・システムにおける状況的な行為とその協調計算 (音声言語情報処理)
- 日本人英語学習者音声の時間制御特性客観評価(音声生成・知覚,聴覚心理,音声学・音韻論,一般)
- ニューラルネットワークと言語統計量に基づく発音辞書の自動生成
- 大語彙連続音声認識における未知語のsub-wordモデリング手法
- 局所的句構造に基づくF_0制御
- 音声翻訳システム : ATR-MATRIXの開発と評価(音声言語情報処理とその応用)
- ATR-MATRIXと人間との音声翻訳能力比較法の誤差に関する検討
- 日英音声翻訳システム ATR MATRIX
- ATRの新音声言語データベース
- 中国語単語音声からの基本周波数制御コマンドの自動抽出
- 複数話者の音声データベースから自動生成されたF_0制御規則の分析
- 臨界制動モデルパラメータの分布特性を用いたフレーズ境界の自動推定のための尺度の検討
- 統計的手法を用いた基本周波数パタン制御指令の自動分類
- D-14-11 日本人学習者に見られる中国語声調制御難易度の分析(D-14. 音声,一般セッション)
- 対話音声を対象とした連続音声認識システムの試作と評価
- 旅行会話タスクにおけるTARSPRECの性能評価
- リカレントニューラルネットワークを用いたセグメント境界推定
- 携帯電話型音声翻訳システムATR-MATRIX
- クライアント・サーバ型ATR-MATRIX
- 日英音声翻訳システムATR-MATRIXにおける音声認識用音響・言語モデル
- 異種言語知識の併用による文法的単語グラフ生成法
- 異種言語知識の併用による局所的信頼性向上
- 異種言語知識の併用による局所的信頼性向上
- 異種言語知識の併用による局所的信頼性向上
- 異種言語知識の併用による局所的信頼性向上
- MCE/GPDを用いた自然発話音声認識における不特定話者音響モデルの改善
- 発話情報を用いたF0制御パラメータの自動推定
- 音声合成のための規則とデータの表現, 獲得, 評価(音声情報処理 : 現状と将来技術論文特集)
- 大語い連続音声認識のための単語仮説数削減
- Delayed decisionビーム探索の検討
- 単語グラフと可変長N-gramを用いた大語彙自然発話音声認識
- 単語グラフを用いた自由発話音声認識
- 単語グラフを用いた自由発話音声認識
- 単語グラフを用いた連続音声認識法
- 地域や年齢的な広がりを考慮した大規模な日本語音声データベース
- 基本周波数パタンに見られる発話態度の分析(対話)
- 基本周波数パタンに見られる発話態度の分析(対話)
- 文中の音韻長伸縮の自然性許容に対する発話速度の効果(聴覚・音声・言語とその障害)
- コーパスベース音声合成技術の動向[I] : コーパスベース音声合成の過去・現在・将来(自然な音声合成システム構築のための枠組み)
- 文音声における音韻長の制御特性と知覚特性との対応関係
- 英語発話リズム客観評価に向けた音響特徴の分析
- 日本人発話英語のリズム客観評価モデル
- 大規模日本語音声データベースの構築と評価
- 文中の音韻長伸縮の自然性許容に対する文節内位置の効果
- 中国語音声認識における音素環境のモデリング
- 中国語音声認識のための基本的な音響単位の調査
- 音声の生成モデルを用いた話者正規化手法(音声情報処理 : 現状と将来技術論文特集)
- 大規模な日本語音声データによる音響モデルの分析
- 音声の生成モデルを用いた話者正規化手法
- 声道形状の特徴量に着目した話者適応手法
- 声道の特徴量を用いた話者クラスタリング手法の検討
- 声道の特徴量を用いた話者クラスタリング手法の検討
- 声道の特徴量を用いた話者クラスタリング手法の検討
- 確率文脈自由文法を用いた韻律句境界とポーズ位置の予測
- 確率文脈自由文法を用いた韻律句境界の推定
- 混合分布セグメントモデルのためのモデルパラメータ推定法
- インタラクティブ・システムにおける適応行動
- インタラクティブ・システムにおける主体性と適応行動
- 語彙が与える印象に基づく対話韻律生成
- 3次元ビタビ探索に基づく話者正規化手法
- 音素境界推定ネットワークを利用した音声の自動セグメンテーション
- リカレントニューラルネットワークを用いた音素境界推定と音声認識への応用
- ACOUSTIC MODELS FOR SPEECH RECOGNITION : A SURVEY
- 発音ネットワークに基づく発音辞書の自動生成
- SCALAR QUANTIZATION OF CEPSTRAL PARAMETERS FOR LOW BANDWIDTH CLIENT-SERVER SPEECH RECOGNITION SYSTEMS
- 位置依存単語クラスタと頻出単語列を用いた多重クラス複合3-gram言語モデル
- 品詞接続特性と単語接続特性の最大事後確率推定による融合に基づく単語クラス分類
- 多重クラスTrigram構築のための効率的な自動クラスタリング手法
- 多重クラスTrigram構築のための効率的な自動クラスタリング手法
- 複数決定木の動的順序付けに基づく発話の概念推定 (音声言語情報処理)
- 統計的手法による認識結果から中間表現への変換を用いた音声理解システム
- 決定木を用いた発話の意味タグ推定
- 統計的処理による音声・言語理解モデル
- MAP推定を用いたN-gram言語モデルのタスク適応
- 連続音声認識のための品詞・単語可変長N-gram
- 連続音声認識のための可変長連鎖統計言語モデル
- 複数音素にわたるHMMの誤認識特性を用いた語彙候補の追加
- 語彙クラスに依存した未登録語モデルに基づく統計的言語モデル
- 対話における相手話者の前発話に対する中間言語表現を利用した言語モデル
- 未登録語のクラス依存サブワードモデルを用いた音声認識
- 中間言語表現の生成を目的とした音声理解
- どこでも出来る音声翻訳:クライエントサーバーATR-MATRIX
- APPLYING CONTEXTUAL SYNTACTIC AND SEMANTIC TAGS TO MAXIMUM ENTROPY BASED LANGUAGE MODELING
- THE MAXIMUM ENTROPY APPROACH TO LANGUAGE MODELLING OF ATRSPREC
- DISTANCE-RELATED UNIT ASSOCIATION MAXIMUM ENTROPY LANGUAGE MODELING
- 日英音声翻訳システム「ATR-MATRIX」における音声認識部分の構造と制御方法
- 単語の依存関係を用いた単語クラスの自動決定法
- Situated Parser : 自然な発話に対する有機的なパージングアーキテクチャ
- 自然な発話に対する頑健なパージングアーキテクチャ
- 自然な発話に対する創発的なパージングアーキテクチャ
- 多重クラスTrigram構築のための効率的な自動クラスタリング手法
- F_0生成モデルを用いたテンプレートに基づく連続音声の句境界検出
- F_0生成モデルに基づくアクセントテンプレートの連続整合による句境界検出
- 韻律モデルを用いたF_Oクラスタリングに基づくアクセント句境界検出