ゆう度基準による分析周期・窓長の自動選択手法を用いた発話速度の補正と音響モデルの構築
スポンサーリンク
概要
- 論文の詳細を見る
話し言葉の認識においては,発話速度の変動が認識性能に影響を与えることが報告されており,発話速度の正規化や補正が重要であると考えられる.本論文では発話速度を補正するために,認識時においてゆう度基準により分析周期・窓長を変更する手法を提案する.複数の分析周期・窓長を用いて認識した結果の音響ゆう度・言語ゆう度を比較することにより,発話ごとに適した分析周期・窓長を選択し,結果的に発話速度を補正する.本手法を用いることで,発話速度の変動が大きい講演音声に対して,認識性能が改善されることを確認した.更に,音響モデル学習時に発話速度を補正することを提案する.学習データに対して,複数の分析周期・窓長を用いてビタビアラインメントを行った後,音響ゆう度が最も大きな分析周期・窓長を選択する.本手法を用いて構築した音響モデルを用いて,提案手法により認識を行うことで更に認識性能を改善することができた.
- 社団法人電子情報通信学会の論文
- 2003-02-01
著者
関連論文
- A-16-18 Blendshapesによるリップシンクアニメーションのためのキーフレーム削除法(A-16.マルチメディア・仮想環境基礎,一般講演)
- 京都観光案内対話コーパスにおける対話行為タグの設計と分析(理解)
- 同調的対話システム構築のための音声対話コーパスの構築(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- 携帯型端末を用いた音声自動翻訳システムとフィールド実験(モバイルと放送の融合時代を迎えて(1セグ放送, モバイル放送, 携帯放送融合サービス, 1セグ対応携帯端末, モバイルコンテンツと放送コンテンツの融合, マルチメディア配信, ディジタル放送受信機, および一般))
- NICT知識創成コミュニケーション研究センターの研究と高度言語情報融合フォーラム(ALAGIN)の活動について(Web情報処理,Webとデータベースに関する技術報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(第8回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- バイモーダル音声認識における音素境界を越えた同期性のモデル
- 音声認識における頑健性 : 音響分析・音響モデル,なにが課題か(企画)
- NICTにおける音声・言語研究拠点MASTARプロジェクトについて(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- 多チャンネル三次元音場再現システムの再生方式の違いによる再現性能評価
- マルチモーダル音声言語処理とその応用(マルチモーダル)
- ストーリへの没入感を実現するダイブイントゥザムービープロジェクト(テーマ関連/オーガナイズドセッション)
- 5.効率的アニメ制作支援のための3次元CG技術(情報技術が支えるアートとコンテンツの世界)
- CENSREC-1-C : 雑音下音声区間検出評価基盤の構築
- 連続音声認識候補受理/リジェクションのためのワードスポッティング仮説検証手法(第5回音声言語シンポジウム : システム・信頼度)
- 統計的対話モデルを用いたWFSTに基づく音声対話システム
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- ATR実環境雑音DB-ATRANS-を用いた雑音重畳音声認識実験(耐雑音)
- 実走行車内単語音声データベースCENSREC-3と共通評価環境の構築
- CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
- 話し言葉における引用節の自動認定および引用符の付与(第8回音声言語シンポジウム)
- 話し言葉における引用節の自動認定および引用符の付与(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- 話し言葉における引用節の自動認定および引用符の付与
- 単語適合率最大基準に基づく複数システムの統合
- スライド情報を用いた言語モデル適応による講義音声認識
- 質問応答・情報推薦機能を備えた音声による情報案内システム(音声質問応答,インタラクションの理解とデザイン)
- ドメインとスタイルを考慮したWebテキストの選択による音声対話システム用言語モデルの構築(音声,聴覚)
- シナリオ記述を状況に依存して実行する対話エージェントのアーキテクチャ
- シナリオ記述を状況に依存して実行する対話エージェントのアーキテクチャ
- 局所的な係り受けの情報を用いた話し言葉の節・文境界の推定
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- ポスター会話に対する発話区間検出と話者識別の検討(コミュニケーション・対話,第9回音声言語シンポジウム)
- 話し言葉における引用節の自動認定および引用符の付与(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- 対話音声認識を指向した音響モデルの構築
- 講演音声の音響的特徴分析と音響モデル構築方法の検討
- 発話検証に基づく音声操作プロジェクタとそれによる講演の自動ハイパーテキスト化 (音声言語情報処理)
- 文法カテゴリ対制約を用いたA^*探索に基づく大語彙連続音声認識パーザ (音声言語情報処理)
- 単語トレリスインデックスを用いた段階的探索による大語彙連続音声認識
- 文法カテゴリ対制約を用いたA^*探索に基づく大語彙連続音声認識パーザ
- 汎用的な情報検索音声対話プラットフォーム
- 文法カテゴリ対制約を用いたA^*探索に基づく大語彙連続音声認識パーザ
- 汎用的な情報検索音声対話プラットフォーム
- 文法カテゴリ対制約を用いたA^*探索に基づく大語彙連続音声認識パーザ
- 汎用的な情報検索音声対話プラットフォーム
- 音声対話によるソフトウェアサポートタスクのための効率的な確認戦略(音声, 聴覚)
- 2ZN-1 ポスター会話中の音リアクションイベントに基づくホットスポットの抽出(情報爆発時代における対話インタラクション,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 英語韻律発音学習支援システムのための英語文強勢のモデル化と自動検出
- CALLシステムのための英語文強勢知覚のモデル化
- 講演音声認識のための音響・言語モデルの検討
- 講演音声認識のための音響・言語モデルの検討
- 講演音声認識のための音響・言語モデルの検討
- 講演ディクテーションのための話題独立言語モデルと話題適応
- 講演ディクテーションのための話題独立言語モデルと話題適応
- 複合的言語制約に基づくキーフレーズ検出を用いた汎用的なデータベース検索音声対話プラットフォーム
- 音声言語を用いた仮想空間との対話による試着システム(次世代ヒューマンインタフェース・インタラクション)
- 音声言語を用いた仮想空間との対話による試着システム
- 京大総合情報メディアセンターにおけるCALLの試み
- 京大総合情報メディアセンターにおけるCALLの試み
- 京大総合情報メディアセンターにおけるCALLの試み
- 大規模日本語音声データベースの構築と評価
- 話し言葉音声認識のための汎用的な統計的発音変動モデル(音声, 聴覚)
- 『日本語話し言葉コーパス』を用いた汎用的な発音変動モデルの統計的学習(音声言語情報処理一般)(テーマ:音声対話システム、音声言語情報処理、一般)
- 多数話者モデルを用いた討論音声の教師なし話者インデキシング(音声,聴覚)
- 談話標識の抽出に基づいた講演音声の自動インデキシング(音声言語情報処理とその応用)
- 複数特徴の重み付き統合による雑音に頑健な発話区間検出(音声,聴覚)
- 音響特徴パラメータの相関を利用した音素継続時間長の正規化
- 日本人の誤りパターンの対判別を利用した英語発音教示システム
- フォルマント構造推定による日本人用英語発音教示システム
- 機器操作マニュアルの知識と構造を利用した音声対話ヘルプシステム(音声言語情報処理とその応用)
- 2X-9 マルチメディア講義情報を用いたWBT教材作成
- 4U-1 講義の自動アーカイビングシステムの構築
- 音節強調発声に頑健な自然発話音声の認識法
- 音節強調発音に頑健な自然発話音声の認識法
- 音声対話システムにおける適応的な応答生成を行うためのユーザモデル(音声,聴覚)
- ユーザモデルを導入したバス運行情報案内システムの実験的評価
- LF-2 バス運行情報案内システムにおけるユーザモデルを用いた適応的応答の生成(F. 音声・音楽)
- 述語項の類似度に基づく情報抽出・推薦を行う音声対話システム
- 大語彙連続音声認識に適した語彙の再構成
- ゆう度基準による分析周期・窓長の自動選択手法を用いた発話速度の補正と音響モデルの構築
- 講演音声認識における発話速度の変動を考慮した音声認識手法
- 講演音声認識における発話速度の変動を考慮した音声認識手法
- 講演音声認識における発話速度の変動を考慮した音声認識手法
- スペクトルの時間変化量に基づく可変分析フレームを用いた発話スタイルの変動に頑健な音響モデルの構築
- 音節強調発声に頑健な自然発話音声の認識法
- 会議音声の自動アーカイブ化システム
- 会議音声の自動アーカイブ化システム
- 会議音声の自動アーカイブ化システム
- 発話速度に依存したデコーディングと音響モデルの適応
- 発話速度に依存したデコーディングと音響モデルの適応、
- 発話速度に依存したデコーディングと音響モデルの適応
- 大語彙連続音声認識における認識誤り原因の自動同定
- 情報コンシェルジェ : Mind Probingに基づくマルチモーダルインタラクションシステム(「コミュニケーションと気づき」及び一般)
- 携帯情報端末用メモパッドと固有名詞の音声入力方式
- 単語トレリスインデックスを用いた大語彙連続音声認識エンジンJULIUS
- 定位情報と音色情報を用いた複数楽器音の認識