音節強調発声に頑健な自然発話音声の認識法
スポンサーリンク
概要
- 論文の詳細を見る
自然発話音声には, 正しく意図を伝えるための強調発声や言い直し, 感情表現など, さまざまな発話様式が含まれている.より良いヒューマンインタフェースとして音声認識システムを考えた場合, これらの発話様式の変動に頑健な音声認識システムを構築することは非常に重要である.特に現在の音声認識システムでは, 誤認識の発生は避けられず, その言い直しに対して頑健にする必要がある.言い直し発話では, より明瞭に発声する, 音素継続時間長が増加するという変化が生じるとともに, 音節強調発声の出現頻度が増加するという傾向がある.本稿では, 言い直し発話における音節強調発声に有効な音声認識手法について検討したので報告する.音節強調発声は, 発話様式が孤立音節発声に近くなるとともに, 音節間の音響的特徴が変形する.本手法では, 後続音素環境が無音のtriphone母音モデルと, 先行音素環境依存biphone母音モデルをマルチモデル化して用いることにより, 上記の音節強調発声の問題に対処する.デコードの際, 音素ごとに尤度の高いモデルを選択することで, 認識辞書の拡張や音響モデルの切り替えを行うことなく, 音節強調発声に対する認識率を向上することができた.
- 社団法人電子情報通信学会の論文
- 2000-12-15
著者
-
松井 知子
Atr音声言語コミュニケーション研究所
-
松井 知子
Atr音声翻訳通信研究所
-
奥田 浩三
ATR音声言語コミニュケーション研究所
-
中村 哲
Atr音声口語コミュニケーション研究所
-
奥田 浩三
ATR 音声言語コミュニケーション研究所
関連論文
- A-16-18 Blendshapesによるリップシンクアニメーションのためのキーフレーム削除法(A-16.マルチメディア・仮想環境基礎,一般講演)
- 京都観光案内対話コーパスにおける対話行為タグの設計と分析(理解)
- 同調的対話システム構築のための音声対話コーパスの構築(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- 携帯型端末を用いた音声自動翻訳システムとフィールド実験(モバイルと放送の融合時代を迎えて(1セグ放送, モバイル放送, 携帯放送融合サービス, 1セグ対応携帯端末, モバイルコンテンツと放送コンテンツの融合, マルチメディア配信, ディジタル放送受信機, および一般))
- NICT知識創成コミュニケーション研究センターの研究と高度言語情報融合フォーラム(ALAGIN)の活動について(Web情報処理,Webとデータベースに関する技術報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(第8回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- バイモーダル音声認識における音素境界を越えた同期性のモデル
- 音声認識における頑健性 : 音響分析・音響モデル,なにが課題か(企画)
- NICTにおける音声・言語研究拠点MASTARプロジェクトについて(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- 多チャンネル三次元音場再現システムの再生方式の違いによる再現性能評価
- マルチモーダル音声言語処理とその応用(マルチモーダル)
- ストーリへの没入感を実現するダイブイントゥザムービープロジェクト(テーマ関連/オーガナイズドセッション)
- 5.効率的アニメ制作支援のための3次元CG技術(情報技術が支えるアートとコンテンツの世界)
- CENSREC-1-C : 雑音下音声区間検出評価基盤の構築
- 連続音声認識候補受理/リジェクションのためのワードスポッティング仮説検証手法(第5回音声言語シンポジウム : システム・信頼度)
- 統計的対話モデルを用いたWFSTに基づく音声対話システム
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- ATR実環境雑音DB-ATRANS-を用いた雑音重畳音声認識実験(耐雑音)
- 実走行車内単語音声データベースCENSREC-3と共通評価環境の構築
- CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
- 実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- 分散型認識システムでのデータ補完に関する一検討
- 歩行者支援GISにおける音声入力インタフェースの検討(福祉と言語処理/一般)
- 音声翻訳研究の展開(機械翻訳)
- D-14-6 次世代情報家電への音声インタフェースの導入に関する検討(D-14.音声・聴覚,一般講演)
- 連続音声認識候補受理/リジェクションのためのワードスポッティング仮説検証手法(第5回音声言語シンポジウム : システム・信頼度)
- 来場者の声の特徴を反映する映像エンタテインメントシステムのための台詞音声生成システム
- iFACe:デジタルアニメ声優体験システム
- 携帯型端末を用いた音声自動翻訳システムとフィールド実験
- 実環境における発話区間検出のための音響情報と画像情報の統合(音響と音声処理,音声強調,ロバスト音声認識)
- 実環境における発話区間検出のための音響情報と画像情報の統合(音響と音声処理,音声強調,ロバスト音声認識)
- 個人の音声を反映する映像エンタテインメントシステム
- 単語適合率最大基準に基づく複数システムの統合
- QAシステムのための音声入力インターフェース
- 音声認識の信頼度・複数候補を利用したWFST対話システムの評価
- 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
- 相談型対話のモデル化と対話戦略の最適化
- 利得適応型AR-HMM分解法を用いた音響モデルの雑音適応化の検討(音響と音声処理,音声強調,ロバスト音声認識)
- 利得適応型AR-HMM分解法を用いた音響モデルの雑音適応化の検討(音響と音声処理,音声強調,ロバスト音声認識)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- CENSREC-2 : 実走行車内における連続数字音声データベースと評価環境の構築
- 自動車内における連続数字音声コーパスCENSREC-2の設計と評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- Switching dynamical systemとパーティクルフィルタを用いた非定常雑音の逐次推定(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- 自動車内における連続数字音声コーパスCENSREC-2の設計と評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- 自動車内における連続数字音声コーパスCENSREC-2の設計と評価(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- Switching dynamical systemとパーティクルフィルタを用いた非定常雑音の逐次推定(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- Switching dynamical systemとパーティクルフィルタを用いた非定常雑音の逐次推定(Session-1 音響モデル・特徴量・学習, 第7回音声言語シンポジウム)
- 歩行者支援地理情報システムにおける音声入力インタフェースと高齢者に対するその評価
- 歩行者支援GISにおける音声入力インタフェースの検討(福祉と言語処理/一般)
- 多様な雑音環境下での頑健な音声認識
- 講演音声の音響的特徴分析と音響モデル構築方法の検討
- 旅行会話タスクにおけるTARSPRECの性能評価
- SPINE2プロジェクトのための単語間ポーズモデルによる耐雑音性に優れた音声認識
- SPINE2プロジェクトのための単語間ポーズモデルによる耐雑音性に優れた音声認識
- DARPA SPINEタスクのためのATR音声認識システム
- DARPA SPINEタスクのためのATR音声認識システム
- DARPA SPINEタクスのためのATR音声認識システム
- 地域や年齢的な広がりを考慮した大規模な日本語音声データベース
- 大規模日本語音声データベースの構築と評価
- ATR音素バランスデータベースにおける高精度の音響モデル学習
- SPINE2プロジェクトのための耐雑音性に優れたベースライン音響モデルの構築
- 中国語音韻バランス用文セットの選択手法
- 大規模な日本語音声データによる音響モデルの分析
- 音響特徴パラメータの相関を利用した音素継続時間長の正規化
- 長時間パワースペクトル減算による雑音下音声認識
- 長時間パワースペクトル減算による雑音下音声認識
- 長時間パワースペクトル減算による雑音下音声認識
- 口周囲画像による頑強な発話検出
- 口周囲画像による頑強な発話検出
- 口周囲画像による頑強な発話検出
- MDL規準を用いた逐次状態分割法による音響モデル自動構造決定
- MDL規準を用いた逐次状態分割法による音響モデル自動構造決定
- MDL規準を用いた逐次状態分割法による音響モデル自動構造決定
- HMM合成による環境音重畳音声の認識
- 複数トピック分類の信頼度に基づくドメイン外発話の検出(第5回音声言語シンポジウム : システム・信頼度)
- 複数トピック分類の信頼度に基づくドメイン外発話の検出(第5回音声言語シンポジウム : システム・信頼度)
- 話題同定に基づく言語モデル切替えによる対話音声認識
- 話題同定に基づく言語モデル切替えによる対話音声認識
- 話題同定に基づく言語モデル切替えによる対話音声認識
- 話題同定に基づく言語モデル切替えによる対話音声認識
- 誤認識時の言い直し発話における発話スタイルの変動に頑健な音響モデル構築法(音声,聴覚)
- 自然発話音声における音節強調発声に頑健な音響モデルの構築法
- 音節強調発声に頑健な自然発話音声の認識法
- 拡張型カルマン・パーティクル・フィルタを用いた雑音下音声認識
- 音節強調発音に頑健な自然発話音声の認識法
- 拡張型カルマン・パーティクル・フィルタを用いた雑音下音声認識
- 拡張型カルマン・パーティクル・フィルタを用いた雑音下音声認識
- ゆう度基準による分析周期・窓長の自動選択手法を用いた発話速度の補正と音響モデルの構築
- 講演音声認識における発話速度の変動を考慮した音声認識手法
- 講演音声認識における発話速度の変動を考慮した音声認識手法
- 講演音声認識における発話速度の変動を考慮した音声認識手法
- スペクトルの時間変化量に基づく可変分析フレームを用いた発話スタイルの変動に頑健な音響モデルの構築
- 音節強調発声に頑健な自然発話音声の認識法
- 自己教示学習を用いた音楽ジャンル分類 : 大規模な音楽データの活用に向けて(Session 7A(Big data))