携帯端末向け大語彙連続音声認識システム(音声,聴覚)
スポンサーリンク
概要
- 論文の詳細を見る
市販の携帯情報端末(PDA)上で動作するコンパクトな大語彙連続音声認識システムを開発した.音響モデルにはトライフォン単位を用い,MDL基準に基づく混合ガウス分布数の削減,木構造を利用した効率的な出力確率計算,などにより認識性能の劣化を抑えながらパラメータ数を約1/3に,出力確率値の計算量を1/10以下に削減した.言語モデルはクラスbigramをベースに,高頻度単語bigramを併用した.サーチは2パス方式で,単語終端テーブルのガーベジコレクションによるメモリ使用量増加の抑制や,単語終端における言語スコア計算結果の再利用による効率化などを行った.5000語の文入力タスクでは,文節程度の長さに区切って発声した音声に対して実時間動作(話者適応化あり,単語正解精度91.6%,メモリ使用量4MByte)することを確認した.5万語旅行会話音声認識タスクは,言語モデルを約10万文の旅行会話コーパスを用いて学習し,単語trigramも使用することにより,連続発声に対して実時間の約1.5倍の処理時間で動作することを確認した(男性10名1800発話に対する性別不特定話者の単語正解精度95%,メモリ使用量8MByte).
- 社団法人電子情報通信学会の論文
- 2004-02-01
著者
-
渡辺 隆夫
日本電気(株)中央研究所
-
江森 正
Necマルチメディア研究所
-
花沢 健
日本電気(株)中央研究所共通基盤ソフトウェア研究所
-
三木 清一
Necマルチメディア研究所
-
磯 健一
NECマルチメディア研究所
-
磯谷 亮輔
NECマルチメディア研究所
-
石川 晋也
NECマルチメディア研究所
-
花沢 健
NECマルチメディア研究所
-
渡辺 隆夫
NECマルチメディア研究所
-
磯 健一
Necメディア情報研究所
-
磯谷 亮輔
日本電気(株)中央研究所:(現)(独)情報通信研究機構
-
石川 晋也
Nec メディア情報研究所
-
渡辺 隆夫
日本電気株式会社情報メディア研究所
-
渡辺 隆夫
日本電気株式会社c&c情報研究所
関連論文
- 音声認識応用に関する学会試行標準
- C&Cの夢,自動通訳の実現に向けて : 受賞業績 携帯端末など組込み機器向け多言語自動音声翻訳システムの実用化技術の開発(平成20年度喜安記念業績賞紹介)
- 携帯端末向け大語彙連続音声認識システム(音声,聴覚)
- 大語彙姓離散発声電話音声認識の検討
- コンパクトなディクテーションの開発
- D-14-6 コンパクト日本語ディクテーションの開発
- 音声による文章入力のための言語モデル適用法の検討
- F-9 大語彙音声認識を用いたPDA向け音声UIの試作(音声・音声言語情報処理,F.音声・音楽)
- PDAで動作する旅行会話向け日英双方向音声翻訳システム
- 木構造辞書とネットワーク文法を用いたコンパクト大語彙連続音声認識エンジン
- ビームサーチを用いた大語彙音声認識方式の検討
- G_010 映像コンテンツと関連文書の連携によるシーン検索システム(G分野:音声・音楽)
- LE-1 自由文通訳と例文選択型通訳を統合した自動通訳システム(E. 自然言語・文書)
- カテゴリ推定に基づく動的な言語モデル適応 (音声)
- カテゴリ推定に基づく動的な言語モデル適応 (言語理解とコミュニケーション)
- PDAで動作する旅行会話向け日英双方向音声翻訳システム
- 自動通訳システムINTERTALKERにおける日本語音声合成
- カテゴリ推定に基づく動的な言語モデル適応
- AS-1-3 低消費電力マルチコアプロセッサで動作する大語彙連続音声認識とその応用(AS-1.マルチコアプロセッサ技術,シンポジウム)
- LG-003 携帯電話用プロセッサで動作する大語彙連続音声認識の並列処理(G分野:音声・音楽)
- 2D-2 携帯電話試作機上で動作する旅行会話向け自動通訳システムの開発(音声・音楽情報処理,一般セッション,人工知能と認知科学)
- モバイル端末のためのユーザインタラクション技術(後編) : 入力対話技術
- モバイル端末のためのユーザインタラクション技術(前編) : 表示対話技術
- 音声認識読み記号および音声関連ソフトウエアに係わる用語の試行標準案
- 音声言語情報処理に関する情報処理学会の試行標準策定活動
- 音声言語情報処理に関する情報処理学会の試行標準策定活動
- パソコン向け音声認識合成プラットフォームの構築とアプリケーションの試作
- 音声認識・合成ソフトウェアを利用した音声I/Fを持つ電子メールシステムの試作
- 音声認識/合成ソフトウェアのAPI開発
- 階層的Eigen Voice法による話者適応化(音声,聴覚)
- 階層的主成分分析を用いた木構造話者適応
- HMMの変分ベイズ学習によるテキストセグメンテーション及びその映像インデキシングへの応用(バイオサイバネティックス,ニューロコンピューティング)
- HMMの変分ベイズ学習によるテキスト文書の話題分割法(認識・理解・対話)
- HMMの変分ベイズ学習によるテキスト文書の話題分割法(認識・理解・対話)
- 概念表現を用いた自動通訳システムINTERTALKER
- E_031 自動通訳システムのユーザインタフェイスレベルでの統合(E分野:自然言語)
- 音声認識のためのスペクトルの調波構造の利用
- SNRの変動を考慮したスペクトルサブトラクションの検討
- 種々の電話機による音声認識性能の評価
- 環境変動を考慮した電話音声認識方式の種々の電話機による評価
- 雑音環境を考慮した自律型話者適応化
- 雑音環境の変動を考慮した話者適応化
- 音声認識のための高速環境適応
- 高速環境適応におけるコンパクト化の検討
- 雑音環境の変動に強い音声認識 (音声/オ-ディオ信号処理) -- (音声認識)
- 音声認識のための高速環境適応
- パソコン向け音声認識ソフトウェア
- 自動通訳システムINTERTALKERにおける音声認識
- 話し言葉認識に向けた基本技術と応用(抽出と解析)
- 話し言葉認識に向けた基本技術と応用(抽出と解析)
- 半音節単位に基づく単語認識のためのワードスポッティング
- 半音節を用いたワードスポッティングによる単語認識
- 2D-3 携帯電話試作機上で動作する旅行会話向け音声認識システム(音声・音楽情報処理,一般セッション,人工知能と認知科学)
- バンドルサーチ法を用いた連続音声認識の高速化
- 日英双方向自動通訳システムINTERTALKER
- 自動通訳システム (音声ヒューマンインタフェース特集)
- 連続音声認識からの概念表現の作成
- MDL基準を用いたHMMサイズの削減
- 音声認識のためのMDL基準を用いた効果的なガウス数削減
- 音声認識のためのMDL基準を用いた効果的なガウス数削減
- 音声認識における自律的なモデル複雑度制御を用いた話者適応化(論文賞贈呈)
- 音声認識における自律的なモデル複雑度制御を用いた話者適応化
- 情報量基準を用いた音声認識単位の自動生成
- 記述長最小原理を用いた話者適応化
- パソコン向けソフトウェア連続音声認識システム
- パソコンソフト連続音声認識
- 木構造化された確率分布を用いた話者適応化
- 大語彙音声入力装置の開発
- 音声認識のためのスペクトル内挿を用いた話者適応化
- 音素記号と特徴ベクトルの同時出力確率を用いた音声認識
- 音声インターフェースを用いたWeb新聞へのアクセス
- 音声インターフェースを用いたWeb新聞へのアクセス
- 半音節を単位とするHMMを用いた不特定話者音声認識
- Model-Based Wiener Filterによる雑音の種類に頑健な音声認識(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- Model-Based Wiener Filterによる雑音の種類に頑健な音声認識(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- Model-Based Wiener Filterによる雑音の種類に頑健な音声認識(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- 音声入力パソコンネットワーク旅客機空席案内試作システム
- 音声インタフェースを用いたパソコンネットフライト空席案内
- 音声認識におけるパタンマッチングの手法
- 音節認識を用いたゆう度補正による未知発話のリジェクション
- 音声認識システムの構築における諸問題とその解決
- 3-2 連続音声認識(3.基礎技術)(最近の音声処理技術)
- 音声入力を用いたパソコンネット旅客機空席案内システム
- パソコン音声認識ソフトウエアを用いた音声ダイヤラの試作
- ニュ-ラル予測モデルを用いた不特定話者音声認識 (ニュ-ロコンピュ-ティング論文)
- キャラクターとの会話体験を提供する音声応答の試験サービス
- 高速・高精度なコンパクト・スケーラブル自動通訳ソフトウェアの開発と実用性評価 (コンシューマ・デバイス&システム Vo.2 No.2)
- 音声の到来方向により対象言語を切り替える自動通訳システム(ポスターセッション)