ピッチパタンの統計モデルに基づく句境界情報を利用した文節スポッティング
スポンサーリンク
概要
- 論文の詳細を見る
入力音声のピッチパタンを用いて韻律的な句境界尤度を算出し, 音響尤度と統合してスポッティングスコアを求める文節スポッティング方式を検討した。句境界尤度を統合することにより, 文節スポッティングにおいて不適切な区間での湧き出し誤りを低減できる。句境界尤度は句の代表的なピッチパタンをモデル化した複数個のHMNを用いてフォワード・バックワードアルゴリズムによって求める。本方式を読み上げと自由発話の連続音声で評価した結果, 両発話様式で文節スポッティングの精度が改善されることを確認した。また短い冗長語を含む自由発話ではピッチパタンのモデル化には状態数の異なる2種類のHMNの組み合わせが有効であった。
- 社団法人日本音響学会の論文
- 1998-12-25
著者
-
花沢 利行
三菱電機(株)情報技術総合研究所
-
中島 邦男
三菱電機(株)情報技術総合研究所
-
阿部 芳春
三菱電機・情報総研
-
中島 邦男
三菱電機株式会社情報技術総合研究所:(現)横浜国立大学産学連携推進本部
-
花沢 利行
三菱電機株式会社情報技術総合研究所
-
阿部 芳春
三菱電機(株)情報技術総合研究所
関連論文
- カーナビゲーション向け音声認識の新たな展開 (特集 次世代の車づくりに貢献する先進技術)
- D-14-10 音声認識におけるリジェクトのためのスコア正規化方法の検討(D-14. 音声・聴覚)
- D-14-16 音素脱落を許す単語モデルを用いた日本人英語の認識
- VQ写像を用いた2入力SSによる非定常騒音下の音声認識
- 日本人英語認識におけるマルチ単語モデルの改良
- 複数単語モデルによる日本人英語音声認識の検討
- 日本人英語の発話様態を考慮した英語音声連続認識の検討
- 発声変形モデルを用いた騒音環境下音声認識
- HMMと一般化LR構文解析を用いた実時間大語彙連続音声認識装置の実現
- 日本人英語認識における単語モデル構成法の検討
- 日本人英語音声認識における音響モデルの検討
- 日本人発声者による英語音声の認識
- 重畳雑音のパタン選択とパワー推定を用いた騒音下音声認識手法の改良
- 雑音標準パタンを用いた非定常騒音下音声認識の検討
- 拡散音場理論に基づく残響環境下音声認識(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 拡散音場理論に基づく残響環境下音声認識(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- HMM-LR音声認識システムの性能評価
- Hidden Markov モデルによる日本語有声破裂音の認識
- 電話の相手はコンピュータ? : 電話系音声認識とその応用
- 対話文脈を利用した概念素に基づく音声理解
- 住所認識のためのメモリ管理方式の検討
- ワードスポッティングと動的計画法を用いたテレビ番組に対する字幕提示タイミング検出法
- D-14-13 学習データ量の年代別偏りを考慮した音響モデル構築方式の検討(D-14. 音声・聴覚)
- D-14-12 車室内で発生する規則性非定常騒音下での音声認識
- VQ写像を用いた2入力SSによる非定常騒音下音声認識の検討 - 自動車内走行騒音への適用 -
- D-14-21 音声認識における特徴ベクトルの補間及びフレーム間引き手法の検討
- 大語彙音声認識における言い換え表現の自動生成方式
- 16ビットマイコン用不特定話者音声認識ミドルウェアの検討
- 音声認識技術の変遷
- D-14-10 N-gram言語モデルを用いた音声対話システムにおける冗長語処理の検討
- タスクの例文を用いた自由発話音声認識のための言語モデルの構築
- SD-3-3 N-gramモデルを用いた音声対話システムのための音声認識の検討
- D-14-20 音声対話システムにおける少量テキストを用いた言語モデルのタスク適応に関する検討
- 自由発話音声認識のためのトライ音節モデルの検討
- 音声対話システムにおける教師なし話者適応の検討
- 音声対話システムにおける湧き出し誤りのリジェクト方式の検討
- 認識結果の信頼度を考慮した教師無し話者適応方式の検討
- 少数話者音声データによる不特定話者モデルのタスク適応
- 規則合成のための波形データの圧縮法
- 大語彙連続音声認識のための複数言語モデルの並列同時単語列探索法(音声言語)(次世代移動体通信システム)
- 話題混合言語モデル構築のための単語連鎖統計量を用いたコーパス分類尺度
- 単語とサブワードの統計量を用いた言語モデル構築手法の一検討
- 混合言語モデルのためのコーパスの記事単位クラスタリング
- 音節認識結果における誤り傾向を考慮した未知語学習の評価
- D-14-9 スムージングを考慮したMDI法の一検討
- D-14-7 符号化データを用いた音声認識方式の検討
- 混合言語モデルのための並行単語列検索
- クラス情報を用いた単語トライグラム言語モデルの一検討
- 分野外の統計量を用いた言語モデルの一検討
- 混合言語モデル作成のためのコーパスのクラスタ分割の検討
- 住所認識のための部分辞書選択法の検討
- 高背景音放送音声を対象とする字幕・音声自動同期の検討
- 放送音声に対する字幕放出タイミング検出手法の検討
- ドキュメンタリー番組における字幕送出タイミング検出の一検討
- ニュース字幕の提示タイミングずれに対する許容特性
- A-14-22 字幕提示タイミングずれに対する許容の主観評価
- 字幕送出タイミング検出におけるワード列ペアモデルの構成検討
- ワード列ペアモデルによる字幕送出タイミング検出の検討
- 字幕・音声同期におけるワード列ペアモデルのスポッティング精度改良
- ニュース音声データベース構築における文セットの設計
- 4)混合連続分布音素片HMMを用いた不特定話者単語認識方式における最適識別学習法の検討(視聴覚技術研究会)
- 混合連続分布音素片HMMを用いた不特定話者単語認識方式における最適識別学習法の検討
- 規則合成における2音節を単位とする音韻継続時間長制御
- 韻律を考慮した規則合成単位の評価
- 韻律を考慮した音声素片を用いる規則合成方式
- D-14-4 連続音声認識における音節継続時間情報を用いた演算量削減(D-14.音声・聴覚,一般講演)
- D-14-6 統計言語モデルを用いた連続音声認識における単語グループ間バイグラムの削減(D-14.音声・聴覚,一般講演)
- 音声認識技術
- 音声認識技術とその応用 (特集 IT時代のヒューマンインタフェース技術)
- ピッチパタンの統計モデルに基づく句境界情報を利用した文節スポッティング
- 単語リジェクト方式のキーワードスポッティングによる評価
- 認識誤り傾向の確率モデルを用いた2段階探索法による大語彙連続音声認識
- ローカルな発話速度が音節認識性能に与える影響について
- クラスタリング情報を用いた未知バイグラム確率推定の一検討
- トピック分割による統計量を用いた言語モデルの一検討
- 大語彙連続音声認識のための音節認識における声道・音源特徴併用の検討
- 音節認識結果における誤り傾向を考慮した未知語学習の一方式
- 手動および自動クラスタリングによる言語モデルの比較
- 最大分岐密度選択法の音声認識への適用
- 文字連鎖統計量を用いた未知語モデルによる単語推定
- 予備選択における性能向上の一検討
- 1段目の最適解と正解との差分傾向を考慮した2段階探索法
- ユーザの行動目標に基づく対話管理手法
- D-14-7 必須形態素の検証によるテキスト検索の改善(D-14.音声,一般セッション)
- 音声認識における継続時間長制御の高精度化の検討
- データベース検索のための大語彙音声認識方式の検討
- 文節スポッティングにおける未知語検出方式の改良
- 自由発話音声における音韻の変形傾向を考慮した音響モデル構成法の検討
- 文節スポッティングにおける未知語処理方式の検討
- 意味主導型音声理解システムのための文節スポッティングの改良
- ベクトル量子化話者適応のHMM音韻認識への適用
- 概念素理解方式の一般化とタスク知識の適用手法
- 概念素に基づく意味理解における言語知識の詳細化
- 音声検索技術とその応用 (特集 ヒューマンインタフェースを支える先端技術 : 新たな価値創造に向けて)
- テキスト音声認識におけるインクリメンタル適応型ビームサーチの検討
- 姓名認識のための音節ネットワーク構成法の検討
- 音響形態素を単位としたテキスト音声認識の検討
- 音節グラフの文脈自由構文解析におけるA^*探索の検討
- 音声と騒音の密度比推定を用いた音声区間検出法(音声入力・区間検出,認識,理解,対話,一般)
- 音声と騒音の密度比推定を用いた音声区間検出法