発声制約の緩和を可能にするサーチの検討
スポンサーリンク
概要
- 論文の詳細を見る
単語音声認識システムの利用者は, 例えば「すずき」ではなく「す」「ず」「き」のように音節単位で発声をする場合がある。しかし, 単語単位での発声入力を前提としている従来の単語音声認識システムでは, 音節単位での発声を許容しないために, 認識性能に著しい劣化が生じることになる。そこで本報告では, 発声形態の制約を緩和し, 様々な発声形態による入力音声に対して認識性能を回復できるサーチ手法として, 累積尤度方式を提案する。累積尤度方式は, 照合処理において, 音節単位のような部分的な発声の終端が検出される毎に, 照合データの一部を次の音声入力まで保持することにより, ポーズで分割された音節単位発声の単語音声や, 一息では言いづらい長い単語の音声に対応する。人名100語の認識タスクでの評価の結果, 従来の単語単位の発声形態を前提とした方式では全く正解が得られない入力音声に対して, 71%の認識率が得られ, 提案方式の効果が実証できた。
- 一般社団法人情報処理学会の論文
- 1998-02-05
著者
-
畑岡 信夫
(株)日立製作所中央研究所
-
天野 明雄
日立製作所中央研究所
-
畑岡 信夫
東北工業大学知能エレクトロニクス学科
-
小高 俊之
(株)日立製作所 中央研究所
-
畑岡 信夫
東北工業大学 工学部 知能エレクトロニクス学科
-
天野 明雄
(株)日立製作所中央研究所
関連論文
- VoiceXMLをベースにした頑強な音声対話管理アーキテクチャ(自然言語情報処理研究会と一部合同開催 : 自動車内音声対話関連)
- 人間共生型ロボットEMIEW2における音源方向推定機能
- 音声を利用したマルチモーダルインタフェース
- 音響学会員のためのインターネット概説
- 音声とペンを入力手段とするマルチモーダルインタフェースの構築
- 音声・ポインティング・CGによるエージエント型ユーザインタフェースシステム
- SA-6-4 音声・ポインティング・CGによるエージェント型ユーザインタフェースシステム(SA-6. メディア変換・統合技術とヒューマンコミュニケーション,シンポジウム)
- 音声認識技術の実用化に向けた自動車内実環境での評価実験
- カーナビにおける音声インタフェースの評価 : 語彙外発話の状況と対応案に関して(聴覚・音声・言語とその障害,一般)
- 人間共生ロボットEMIEWの騒音下音声認識技術
- A-1-16 スパース度の推定処理を特徴とする過完備基底の音源分離手法(A-1.回路とシステム,一般講演)
- 音源重複度判定に基づく音源定位を用いた音源分離手法
- SuperHマイコンへの搭載を目的とした連続音声認識ソフトウェアJuliusの計算量削減
- 話速変換処理における歪の定量評価に関する検討
- B-7-109 多様なセンサノードに対応可能なセンサネットミドルウェア機能の提案(B-7.情報ネットワーク,一般講演)
- 車載音声の解析と評価 : アレイマイクロフォンとスペクトルサブトラクションの融合
- 車載音声の解析と評価〜アレイマイクロフォンとスペクトルサブトラクションの融合〜
- マルチモーダルインタラクション : 今、どのような視点を必要としているのか
- 音声言語情報処理に関する情報処理学会の試行標準策定活動
- マイコン向け音声認識技術を用いた携帯型音声通訳機(音声情報処理 : 現状と将来技術論文特集)
- 80MHz帯域OFDM方式無線通信システムの検討とOFDM変復調回路の設計(スマートパーソナルシステム, 一般)
- ファジィ検索のための平均演算子による曖昧属性の生成
- VoiceXMLインタプリタと連続単語認識エンジンの開発 : 音声ポータル向け音声認識技術の開発
- 子供音声認識の基礎検討
- 汎用マイコンを用いた三次元音響リアルタイム生成ボード
- 三次元音響利用GUI提示システムにおけるアプリケーション対応
- GUI情報の三次元音響による表現方法
- 三次元音響を用いた視覚障害者向けGUI提示システム
- ロバスト音声認識とそのLSI化について
- B-7-108 センサネット情報処理システムの提案(B-7.情報ネットワーク,一般講演)
- A-21-16 スイッチ式低消費電カセンサノードの開発(A-21.センサネットワーク,基礎・境界)
- CS-9-4 センサネットを用いたプレゼンスサービスの試作(CS-9. センサネット: エレクトロニクスと情報技術の融合, エレクトロニクス2)
- 音声認識のネットワークと組込み型応用
- 音声ミドルウェアにおける連続数字認識の開発
- マルチモーダルなエージェント型ユーザインタフェースの評価と対話制御の検討
- 音声とポインティングジェスチャを入力手段としたマルチモーダルインタフェース
- 対話機能を有するエージェント型インタフェースのユーザ学習効率についての評価
- 現場情報を価値につなげるセンサネット (特集 uVALUE創出を加速する「実業×IT」)
- CS-9-5 プレゼンスサービス向けセンサネット名札型ノードの電源システム(CS-9. センサネット: エレクトロニクスと情報技術の融合, エレクトロニクス2)
- 分布重なり回避に基づく連続HMMの混合分布構成法とその単音節認識への適用
- 母音別CMNによる電話特性補償の安定化
- パワーによるクラスタリングに基づくケプストラム平均正規化手法
- 発声制約の緩和を可能にするサーチの検討
- 移動ベクトルの相関に関する事前知識を利用した話者適応
- 音声認識における音響照合の信頼性尺度に関する検討
- 能率的な自動交換オペレータ
- 単語接続部モデルを用いた連続数字音声認識の検討
- 階層的モニタ機構に基づくロバスト音声認識
- 音素の音響的変動を考慮した不特定話者音声認識用HMMの検討
- 音声認識におけるリジェクト方式の検討
- 音響モデルセットとしてのバランスを考慮した不特定話者音声認識用HMMの検討
- 電話回線とLANを介した音声認識応用の検討
- 携帯端末用単語音声認識装置の試作
- 携帯端末用単語音声認識装置の耐騒音性能向上に関する検討
- カーナビ応用を目指した頑強な耐雑音認識方式 : 音響モデルの出現確率に基づく音声/雑音判定
- 「音声度」 測定に基づいたノイズリジェクションの開発
- 組込み機器向け音声認識・合成ミドルウェアとその応用
- SID-2-9 ITS向け音声認識ミドルウエア技術
- SID-2-9 ITS向け音声認識ミドルウエア技術
- 汎用マイコンにおける音声認識・合成ミドルウエアの紹介
- 環境適応機能付き音声認識ミドルウエア
- SHマイクロプロセッサ向け音声認識ミドルウエアの開発
- 事前知識を利用した話者適応方式の改良と教師なし適応への応用
- SD-2-5 CISを支えるマイコン用音声処理ミドルウェア
- インテリアデザイン支援システムを対象としたマルチモーダルインタフェースの評価
- 遷移文法を利用したワードスポッティング方式
- 車戴用音声認識における騒音対策とその評価(音声情報処理 : 現状と将来技術論文特集)
- ポーズを明示的に表現した文法による音声区間検出
- 多数話者音声DBの利用による低認識率話者対策の検討
- ピラミッド階層構造に基づいたノイズに頑強な線図形処理方式
- 家庭内マルチメディア化と端末の課題
- 国家プロジェクト : 音声認識技術の実用化(パネルディスカッション「音声認識技術の実用化」)
- 音声認識技術と応用製品(人の認識・計測)
- 音声技術実用化の課題と取り組み(音声認識のビジネス動向)
- 音声処理にかかわるインフラの現状と進歩 : マイコンCPU、メモリ、ネットワーク技術
- ランニングスペクトルフィルタを用いた雑音にロバストな音声認識(信号処理,LSI,及び一般)
- メルケプストラムを用いたロバスト音声区間検出(信号処理,LSI,及び一般)
- ランニングスペクトルフィルタを用いた雑音にロバストな音声認識(信号処理, LSI, 及び一般)
- メルケプストラムを用いたロバスト音声区間検出(信号処理, LSI, 及び一般)
- ランニングスペクトルフィルタを用いた雑音にロバストな音声認識(信号処理, LSI, 及び一般)
- メルケプストラムを用いたロバスト音声区間検出(信号処理, LSI, 及び一般)
- モバイル時代に向けた新コンセプトサービス : Mobilingual&WalkingNavi
- モバイル時代に向けた新コンセプトサービス : Mobilingual&WalkingNavi
- モバイル時代に向けた新コンセプトサービス : Mobilingual & WalkingNavi
- IEEE ASSP SocietyのTokyo Chapterの設立と、1984年IEEE音響・音声・信号処理国際会議(ICASSP 84)報告
- 携帯情報端末のためのWWW利用情報提供方式の検討
- 4-2 視覚障害者向け三次元音場利用情報提示システム (21世紀の医療・福祉を支える科学技術)
- クラスタリング・ラベリングシステムのアナログLSIによる構成
- 2000-SLP-32-7 日立の音声研究開発戦略 : 汎用マイコン用音声ミドルウェアの開発
- 視覚障害者のGUIアクセスを助ける音響技術(バリアフリーと音響技術)
- 分布間距離尺度に基づく選択的雑音適応によるHMM合成の高速化
- 分布重なり回避に基づく連続HMMの分布混合数決定に関する検討
- フレームパワの大きさに基づいた適応SSによる単語音声認識の検討
- 概念ネットワ-クを用いた大語い単語音声認識 (新しい音声処理技術特集)
- 三次元音響を用いたGUI提示方法に関する予備検討
- トランスオーラル音場再生方式を用いた三次元音響利用GUI提示システム
- B-8-42 EλAN向けFEC可変PHYの提案(B-8.通信方式,一般セッション)
- B-8-27 波長可変光アクセス網向けOLT下りトラフィック制御方式の提案(B-8.通信方式,一般セッション)
- B-8-34 波長可変光アクセス網向けOLTアーキテクチャの提案(B-8.通信方式)
- B-8-64 EλAN向けプログラマブルPHY及びMACの提案(B-8.通信方式)