Acoustic Model Adaptation by Selective Training Using 2-Stage Clustering
スポンサーリンク
概要
- 論文の詳細を見る
This paper proposes a method of constructing acoustic models from training data clustered in two stages. The first stage generates cluster models from small-scale training data gathered form a target task. The second stage clusters a large-scale database based on the cluster models. In decoding, the best acoustic model is selected from all the acoustic models based on the GMM likelihood using some initial frames of an input utterance. Broadcast news transcription experiments showed that the proposed models achieved a word error reduction of 20% and a processing time reduction of 22%, compared with a non-clustered model.
- 社団法人電子情報通信学会の論文
- 2002-02-01
著者
-
宮坂 栄一
NHK放送技術研究所
-
宮坂 栄一
武蔵工業大学環境情報学部
-
Imai Toru
Nhk Science And Technical Research Laboratories
-
Imai T
Nhk Science And Technical Research Laboratories
-
宮坂 栄一
武蔵工大
-
宮坂 栄一
Nhk放送技術研究所音響聴覚研究部
-
Ando A
Science And Technical Research Laboratories
-
Ando Akio
Nhk Science And Technology Research Laboratories
-
Ando Akio
Nhk Science And Technical Research Laboratories
-
ONOE Kazuo
NHK Science and Technical Research Laboratories
-
SATO Shoei
NHK Science and Technical Research Laboratories
-
MIYASAKA Eiichi
Musashi Institute of Technology
-
ISONO Haruo
Nippon Institute of Technology
-
SEGI Hiroyuki
NHK Sci. & Tech. Res. Labs
-
MIYASAKA Eiichi
NHK Sci. & Tech. Res. Labs
-
ISONO Haruo
NHK Sci. & Tech. Res. Labs
-
Segi Hiroyuki
Science And Technical Research Laboratories
-
MIYASAKA Eiichi
Aishin Cosmos Laboratory Co. Ltd.
-
Ando Akio
NHK Science & Technical Research Laboratories
関連論文
- 座談会 : 音響学の発展を巡って
- 第1部-分野別の流れ- 聴覚分野
- EA2000-16 聴覚モデルを用いた初期反射音の客観評価について
- マルチチャンネルオーディオ技術への期待と課題
- マルチチャンネルスピーカを用いた音の上下方向感について
- テレビ番組における音声バランスの比較検討
- 顔の特徴と好ましい声の高さとの関係
- 聴覚の性質を利用した高能率圧縮の原理(身近になったオーディオ符号化)
- 2-1 聴覚の性質を利用した高能率圧縮のしくみ(2.音声圧縮の基本構造)(音声圧縮技術)
- 放送の音声方式 : アナログ放送からディジタル放送まで(ディジタル時代の放送とその周辺技術)
- 次世代オーディオと聴覚をめぐる課題
- S3-3 人にやさしい放送技術
- 〔日本音響〕学会誌50巻を迎えて
- 魅力ある学会誌をめざして : 編集委員会からのメッセージ ( 学会誌50巻を迎えて)
- クリック音の同時マスキングに寄与する広帯域雑音の時間範囲
- 急激な立ち上がり・立ち下がりを有する正弦波信号に対する聴覚マスキングの時空間特性
- 帯域雑音継続時のクリックの知覚
- 聴覚をめぐる最近の話題 (<特集>聴覚)
- 信号断続時におけるクリックの知覚 (<特集>聴覚)
- 音色と聴覚系の応答 (聴覚特集号) -- (聴覚をめぐる最近の話題)
- 連鎖母音音声に対する順応形ニューロンの信号処理
- 順応形ニューロンの時間的シャープニング作用
- 音声認識を利用した放送用ニュース字幕制作システム
- 9.視聴覚技術(テレビジョン年報)
- 2段階クラスタリングに基づく選択学習による音響モデル適応化
- 高品質リアルタイム話速変換システムの開発
- 6.聴覚研究の応用の系譜 : 聴覚分野(〈特集〉-音響学における20世紀の成果と21世紀に残された課題-)
- ニュース音声を対象にした時間遅れを蓄積しない適応形話速変換方式
- 高周波音の知覚について
- 高齢者を対象とした話速変換音声の評価実験
- 小特集に寄せて(感性の領域に迫る音処理技術)
- 放送における音響制作
- 放送における音響制作
- 話速変換音声の自然性向上について -無声区間の伸縮-
- リアルタイム話速変換装置とその応用 : デモンストレーション
- リアルタイム話速変換装置とその応用 : デモンストレーション
- 複数の窓幅から得られた自己相関関数を用いる音声基本周期抽出法
- 音声バランスの知覚測定システム
- 放送用VTRの可変速度再生用音声付加方式の検討
- リアルタイム話速変換装置の実用化について
- ニュース音声認識システムの検討
- 高齢者にやさしい放送サービス : 放送番組音声の背景音レベルと聞きやすさについて
- 高齢者にやさしい放送サービス : 背景音の音響的特徴と聞きやすさに関する検討
- 高齢者にやさしい放送サービス : 音場とスピーカの影響
- 劣化の少ない音響信号符号化の主観評価(その1) -ITU-R TG10/4音響信号コーデックのタンデム接続-
- Robust Speech Recognition by Using Compensated Acoustic Scores(Speech Recognition, Statistical Modeling for Speech Processing)
- Estimation of individualized head-related transfer function based on principal component analysis
- HMM利用による明瞭度測定の検討
- ニュース音声データベースの構築
- 技術動向 音声の認識技術と放送への応用
- 聴覚研究の現状と展望
- 劣化の少ない音響信号符号化の主観評価(その2) -MPEG-2 NBC音響信号コーデック-
- 音響信号の可変ビットレート符号化の検討
- 部分母音列に基づき辞書を探索しながら認識を行う日本語音声認識
- 高品質符号化音の主観評価 (<小特集>マルチメディアを支える高能率符号化)
- 高齢者の聴覚特性--聴力は年とともにどう変化するか
- 6-4 視聴覚(6.画像技術の基礎)(テレビジョン年報)
- 6-3視聴覚(6.画像技術の基礎)(テレビジョン年報)
- Mutual Information Based Dynamic Integration of Multiple Feature Streams for Robust Real-Time LVCSR
- Bi-Spectral Acoustic Features for Robust Speech Recognition
- Online Speech Detection and Dual-Gender Speech Recognition for Captioning Broadcast News(Speech and Hearing)
- Word Error Rate Minimization Using an Integrated Confidence Measure(Speech and Hearing)
- Filter Bank Subtraction for Robust Speech Recognition (Special Issue on Speech Information Processing)
- Simultaneous Subtitling System for Broadcast News Programs with a Speech Recognizer(Special Issue on the 2001 IEICE Excellent Paper Award)
- Acoustic Model Adaptation by Selective Training Using 2-Stage Clustering
- An HMM learning algorithm for minimizing an error function on all training data
- 小児脳死診断基準の核医学的脳血流検査による確認
- 話速変換に伴う時間伸張のリアルタイム吸収法
- 話速変換に伴う時間伸張の吸収効果に対する聴覚心理的検討
- リアルタイム話速変換型受聴システム
- 放送分野における音声評価法の研究
- 人にやさしい放送のための技術 (特集 ′98技研公開講演・研究発表会)
- お年寄りにやさしい音声放送サ-ビスをめざして (特集 音声技術--お年寄り・障害者にやさしい音声サ-ビスをめざして)
- お年寄にやさしいヒューマンインタフェース
- 特集発行にあたって ( 感覚と運動)
- Sound generator structure for low-elastic electroactive polymer
- Loudspeakers for flexible displays
- Learning Speech Variability in Discriminative Acoustic Model Adaptation
- Separation of Sound Sources Propagated in the Same Direction(Blind Source Separation, Multi-channel Acoustic Signal Processing)
- リアルタイム音声処理のための複数窓幅による逐次ピッチ抽出法
- 高品質な声質変換方式の開発とその応用 (特集 音声技術--お年寄り・障害者にやさしい音声サ-ビスをめざして)
- リアルタイム音声処理のための複数窓幅による逐次ピッチ抽出法
- ピッチ同期音声処理のためのピッチ区間自動区分化の一手法
- 複素ケプストラム分析合成によるピッチ変換法
- 連続発話認識のための言語モデル
- 医用動的遠赤外画像のシステムダイナミックス分析
- Qualitative study on ways of switching between TV programs and advertisements (CMs)
- 学会にビッグバンを
- 映像との同期を考慮した話速変換方式の一検討
- 音声認識技術の放送への応用 (特集 音声技術--お年寄り・障害者にやさしい音声サ-ビスをめざして)
- 母音列に基づき辞書照合を行う日本語音声認識 (特集 音声技術--お年寄り・障害者にやさしい音声サ-ビスをめざして)
- 任意発声データに対する発音記号列を用いた離散分布HMMの話者適応化法
- 発話速度自動計測のための一方法
- 7-11 連続音声認識の字幕スーパーへの応用実験
- 10-7 放送番組におけるCMの量的及び質的評価について : 日米欧比較(第10部門 ヒューマンインフォメーション1)
- Coding and transmission of three-dimensional sound using its spatial features
- Risk-Based Semi-Supervised Discriminative Language Modeling for Broadcast Transcription
- Decoder for Japanese broadcast news transcription
- 加工単音節音声の試み
- Risk-Based Semi-Supervised Discriminative Language Modeling for Broadcast Transcription