対話音声を対象とした連続音声認識システムの試作と評価
スポンサーリンク
概要
- 論文の詳細を見る
対話音声を対象とした音声認識システムATRSPRECの試作・評価を行った.システム構築にあたり, 対話音声認識において認識性能劣化の大きな要因となる話者の発話様式の変化に対して頑健な音声認識を実現するため, 発話様式依存音響モデルを用い, 認識と同時に各発話に対して最適な音響モデルを動的に選択することで, 発話様式の変化に対するオンライン適応を実現した.日英音声翻訳システムを通した対話音声を用いた音声認識実験によりシステムの認識性能の評価を行った.対話データの解析の結果, 音声認識システム利用者がシステムに慣れるにつれ, 発話様式に変化が見られたが, 発話様式依存音響モデルの動的選択を行うことで, 自然発話, 朗読音声用音響モデル各々を単独で用いた場合の誤認識が約13%削減され, 発話様式の変化に伴う音声認識性能の劣化が改善された.
- 2001-01-01
著者
-
匂坂 芳典
早稲田大学国際情報通信研究科
-
中村 篤
Atr音声翻訳通信研究所
-
匂坂 芳典
Atr音声言語コミュニケーション研究所:(現)早稲田大学大学院
-
山本 博史
Nict Atr
-
山本 博史
Atr音声言語コミュニケーション研究所
-
中嶋 秀治
ATR音声言語コミュニケーション研究所
-
シンガー ハラルド
ATR Interpreting Telephony Research Laboratories
-
内藤 正樹
(株)kdd研究所
-
中嶋 秀治
早稲田大学国際情報通信研究科
-
中嶋 秀治
Atr音声言語通信研究所
-
内藤 正樹
ATR音声翻訳通信研究所
-
シンガー ハラルド
ATR音声翻訳通信研究所
-
匂坂 芳典
ATR 音声言語通信研究所
-
ハラルド シンガー
Atr音声翻訳通信研究所
-
シンガー ハラルド
奈良先端科学技術大学院大学
-
Singer H
Atr Interpreting Telephony Research Lab.
-
匂坂 芳典
早稲田大学大学院国際情報通信学研究科
関連論文
- 日本人学習者による英語のリズム制御におけるモーラの影響(感情音声,韻律,声質,音声生成・知覚,脳機能,一般)
- ことばとコミュニケーション(音叉)
- 統計的翻訳評価尺度に基づく日英翻訳文の訳質分析(機械翻訳)
- 未知固有表現を含む音声の認識([特別セッション]音声言語獲得・学習技術(2), 未知語処理)
- 複数のマルコフモデルを用いた階層化言語モデルによる未登録語認識(音声、聴覚)
- 話題と文型の違いを同時に考慮した言語モデル適応
- 構造化言語モデルとその実装
- 対話者の前発話を利用した統計的言語モデル
- クラスに依存した語彙の確率的記述に基づく階層型言語モデル
- 2つの単語クラスから生じた未登録語のサブワードモデルによる音声認識
- 自動音韻セグメンタの時間精度評価 : ラベル尤度との相関と誤差の音韻文脈依存性
- サブワードネットワークに基づく未登録語処理を搭載したデコーダの構築
- 大語彙連続音声認識における未知語のsub-wordモデリング手法
- インタラクティブ・システムにおける状況的な行為とその協調計算 (音声言語情報処理)
- 日本人英語学習者音声の時間制御特性客観評価(音声生成・知覚,聴覚心理,音声学・音韻論,一般)
- ニューラルネットワークと言語統計量に基づく発音辞書の自動生成
- スポーツオノマトペの実態について
- スポーツ指導者・体育学習者のためのオノマトペ辞典の開発
- 大語彙連続音声認識における未知語のsub-wordモデリング手法
- 生成駆動音声認識方式 (GD-SR)
- 単語グラフから例文集へのマッピング
- 生成駆動音声認識方式(GD-SR)
- パターンマッチングに基づく発話意図同定のための重要語検出方法
- 局所的句構造に基づくF_0制御
- 音声翻訳システム : ATR-MATRIXの開発と評価(音声言語情報処理とその応用)
- ATR-MATRIXと人間との音声翻訳能力比較法の誤差に関する検討
- 日英音声翻訳システム ATR MATRIX
- ATRの新音声言語データベース
- 中国語単語音声からの基本周波数制御コマンドの自動抽出
- 発声スタイル並行コーパスを用いた発音変形の分析
- 複数話者の音声データベースから自動生成されたF_0制御規則の分析
- 臨界制動モデルパラメータの分布特性を用いたフレーズ境界の自動推定のための尺度の検討
- 統計的手法を用いた基本周波数パタン制御指令の自動分類
- D-14-11 日本人学習者に見られる中国語声調制御難易度の分析(D-14. 音声,一般セッション)
- 対話音声合成を目指した対話音声の韻律分析
- 発話スタイル並列コーパスを用いた発音変形の分析
- 対話音声を対象とした連続音声認識システムの試作と評価
- 旅行会話タスクにおけるTARSPRECの性能評価
- リカレントニューラルネットワークを用いたセグメント境界推定
- 携帯電話型音声翻訳システムATR-MATRIX
- クライアント・サーバ型ATR-MATRIX
- 日英音声翻訳システムATR-MATRIXにおける音声認識用音響・言語モデル
- 異種言語知識の併用による文法的単語グラフ生成法
- 異種言語知識の併用による局所的信頼性向上
- 異種言語知識の併用による局所的信頼性向上
- 異種言語知識の併用による局所的信頼性向上
- 異種言語知識の併用による局所的信頼性向上
- MCE/GPDを用いた自然発話音声認識における不特定話者音響モデルの改善
- クライアント・サーバ型 ATR-MATRIX
- 発話情報を用いたF0制御パラメータの自動推定
- 音声合成のための規則とデータの表現, 獲得, 評価(音声情報処理 : 現状と将来技術論文特集)
- 大語い連続音声認識のための単語仮説数削減
- Delayed decisionビーム探索の検討
- 単語グラフと可変長N-gramを用いた大語彙自然発話音声認識
- 単語グラフを用いた自由発話音声認識
- 単語グラフを用いた自由発話音声認識
- 単語グラフを用いた連続音声認識法
- 一般化ラプラス混合分布に基づく音声認識用音響デモリング(音声情報処理 : 現状と将来技術論文特集)
- クライアント・サーバ型ATR-MATRIX
- 地域や年齢的な広がりを考慮した大規模な日本語音声データベース
- 擬似的学習データを用いた単語スポッタ用ガーベジモデル学習法
- 隠れマルコフモデルを用いた音声認識
- 一般的ラプラス分布に基づく音響モデル
- 不特定話者音響モデルにおけるガウス混合分布再構成法
- 言語情報を用いた教師なしのQuasi-Bayesオンライン話者適応
- ガウス混合分布の再構成による不特定話者音響モデルの改善
- 擬似的学習データを用いた単語スポッティング用ガーベジモデル学習法
- 擬似的学習データを用いたキーワードスポッタのためのガーベジモデル学習法
- 基本周波数パタンに見られる発話態度の分析(対話)
- 基本周波数パタンに見られる発話態度の分析(対話)
- 文中の音韻長伸縮の自然性許容に対する発話速度の効果(聴覚・音声・言語とその障害)
- コーパスベース音声合成技術の動向[I] : コーパスベース音声合成の過去・現在・将来(自然な音声合成システム構築のための枠組み)
- 文音声における音韻長の制御特性と知覚特性との対応関係
- 英語発話リズム客観評価に向けた音響特徴の分析
- 日本人発話英語のリズム客観評価モデル
- 大規模日本語音声データベースの構築と評価
- 文中の音韻長伸縮の自然性許容に対する文節内位置の効果
- 認知計算モデルとしての音声技術
- クラスタされた音響モデルによる中国語音声認識
- 中国語音声認識における音素環境のモデリング
- 中国語音声認識のための基本的な音響単位の調査
- 音声の生成モデルを用いた話者正規化手法(音声情報処理 : 現状と将来技術論文特集)
- 大規模な日本語音声データによる音響モデルの分析
- 音声の生成モデルを用いた話者正規化手法
- 声道形状の特徴量に着目した話者適応手法
- 声道の特徴量を用いた話者クラスタリング手法の検討
- 声道の特徴量を用いた話者クラスタリング手法の検討
- 文音声における音韻長伸縮の許容度に対する文節内位置の効果
- 語彙が与える印象に基づく対話韻律生成
- 位置依存単語クラスタと頻出単語列を用いた多重クラス複合3-gram言語モデル
- ドメインの多次元性を考慮した言語モデル適応
- 句構造間の関係を反映した言語モデル
- 品詞接続特性と単語接続特性の最大事後確率推定による融合に基づく単語クラス分類
- 多重クラスTrigram構築のための効率的な自動クラスタリング手法
- 多重クラスTrigram構築のための効率的な自動クラスタリング手法
- A2.韓国人日本語学習者による日本語の促音の聴取訓練の効果(研究発表,音声学会2009年度(第23回)全国大会発表要旨)
- 日本語特殊拍の知覚学習システムを利用した聴取訓練の効果(第319回研究例会発表要旨)
- 英語学習者音声のリズムの評価に用いるテキストの必要条件
- 対話音声合成を目指した対話音声の韻律分析
- 促音挿入判断に着目した韓国語母語話者による日本語促音の知覚特性 : 韓国語の濃音化との関連性を中心に(聴覚一般,聴覚・音声・言語とその障害/一般)