分散型音声認識の商用システム構築(特別企画「音声認識デベロッパーズフォーラム」)
スポンサーリンク
概要
- 論文の詳細を見る
携帯電話アプリケーションの日本語入力を支援するため、2006年1月よりコンシューマ向けに分散型音声認識のサービスを開始した。携帯電話マイクに入力された音声は携帯電話機上で音響特徴量に変換され、パケット通信で音声認識サーバに送信される。携帯電話が音声認識サーバから受信した認識結果は画面表示されるため、ユーザは瞬時に認識結果を確認し、認識を誤った場合にも誤認識箇所を部分的に修正することができる。音声認識に対するストレスや不安を軽減するため、携帯電話機上の特徴量抽出処理をリアルタイム化し応答時間を数秒に短縮するとともに、誤認識の可能性が高い場合に「声が大きすぎます」、「雑音が大きすぎます」、「発声が早すぎます」と3種類のアラームを発生する機能を追加した。また、ネットワークのコンテンツに日々追加される新しいキーワードを認識できるようにするため、サービスを停止せずに単語辞書・文法を更新する機能を開発した。
- 社団法人情報処理学会の論文
- 2006-10-20
著者
-
河井 恒
株式会社KDDI研究所
-
加藤 恒夫
株式会社KDDI研究所
-
加藤 恒夫
KDDI研究所
-
河井 恒
(独)情報通信研究機構
-
河井 恒
Atr音声言語コミュニケーション研究所
-
河井 恒
株式会社kddi研究所音声処理グループ
-
河井 恒
KDD研究所
-
宇都宮 栄二
KDDI株式会社
-
河井 恒
独立行政法人情報通信研究機構
-
河井 恒
情報通信研究機構
関連論文
- テレビ視聴環境を利用した顔認識のための変動学習
- 携帯型端末を用いた音声自動翻訳システムとフィールド実験(モバイルと放送の融合時代を迎えて(1セグ放送, モバイル放送, 携帯放送融合サービス, 1セグ対応携帯端末, モバイルコンテンツと放送コンテンツの融合, マルチメディア配信, ディジタル放送受信機, および一般))
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型Bluetooth通信方式 (ディペンダブルコンピューティング)
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型Bluetooth通信方式 (コンピュータシステム)
- 音楽情報検索向け類似テキスト検索システムの試作(音楽情報検索)
- 携帯電話音声に対する主観評価の精度及び客観評価尺度PESQの有効性の検証(一般)
- 雑音環境での認識に頑健な発声全体平均局所分散正規化法
- B-6-57 総合音声伝送品質率に基づくヘッダ圧縮処理の制御に関する一検討(B-6.ネットワークシステム,一般講演)
- 転送特性が非対称なワイヤレスリンクにおけるヘッダ圧縮性能向上に関する検討(Webサービスベースのオフィスアプリケーション・ネットワーキング・マネジメント及び一般)
- B-6-124 転送特性の異なる複合IP網における会話型アプリサービス提供に関する一検討(B-6.ネットワークシステム, 通信2)
- 背景雑音を含む携帯電話音声に対するMOS評価の精度推定とPESQの有効性検証
- B-6-115 ワイヤレスIP網におけるRTPパケット受信バッファ制御に関する一検討(B-6. ネットワークシステム, 通信2)
- 無線 IP 網上における区間分割型 QoS 情報通知機能に基づくメディア品質制御手法
- 無線IP網上における区間分割型QoS情報通知機能に基づくメディア品質制御手法
- 携帯インターネットサービスのための音声認証システムの試作と評価
- B-20-60 パッシブ型超音波ポインティングシステムにおける追従性能の評価(B-20.ユビキタス・センサネットワーク,一般セッション)
- アンサンブル学習に基づく音韻継続長のモデル化(合成, 生成, 韻律, 一般)
- 2 携帯電話における分散型音声認識システムの実用化(音声認識技術の実用化への取り組み)
- 分散型音声認識の商用システム構築(特別企画「音声認識デベロッパーズフォーラム」)
- B-15-16 統合PDA端末の開発(6) : 分散型音声認証システムの実装(B-15. モバイルマルチメディア通信, 通信1)
- キーワードと音響的に類似したアンチキーワードを用いたキーワードスポッティングのリジェクション性能の改善
- 連続数字のパタン指定方式による時期差データに対する話者照合精度の改善
- 携帯インターネットサービスのための音声認証システムの試作と評価
- 携帯電話音声に含まれる雑音のモデル化による音声区間検出誤りの削減
- 混合分布HMMにおけるTree-basedクラスタリング(音声情報処理 : 現状と将来技術論文特集)
- D-14-9 電話音声認識を用いた株価情報案内システム
- SP2000-10 多数話者電話音声データベースを用いた話者クラスタリング
- 大語彙汎用音声認識エンジンの評価
- 大語彙汎用音声認識エンジンの開発
- 多数話者電話音声データベースを用いた話者クラスタリングの検討
- 不特定話者混合分布HMMにおけるTree-Basedクラスタリングの検討
- 不特定話者混合分布HMMにおけるTree-Basedクラスタリングの検討
- 不特定話者混合分布HMMにおけるTree-Basedクラスタリングの検討
- 音声信号の途切れ・オーバーフローへのMissing Feature Theoryの適用
- 音声翻訳システムのための声質変換法と日中英語間における評価
- 携帯型端末を用いた音声自動翻訳システムとフィールド実験
- 多言語音声の合成
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型Bluetooth通信方式
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型Bluetooth通信方式
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型Bluetooth通信方式
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型Bluetooth通信方式
- A-10-1 3次元位置推定に基づくパッシブ型超音波ポインティングシステムの構築(A-10. 応用音響,一般セッション)
- 連続数字認識を利用した悪戯電話排除システム
- 不特定話者混合分布HMMにおけるTree-Basedクラスタリングの検討
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型 Bluetooth 通信方式
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型 Bluetooth 通信方式
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型 Bluetooth 通信方式
- 多数の携帯電話とデジタルサイネージ間のインタラクションを可能にするクライアントサーバー型 Bluetooth 通信方式
- 最ゆう状態系列を用いた実時間ケプストラム平均値正規化の検討
- リジェクションを用いた音声始端検出法の改良
- 電話音声認識におけるケプストラム平均値算出法の改良
- 最尤状態系列を用いた実時間ケプストラム平均値正規化の検討
- 時差・エリアコード案内システムの試作
- 発声内容を考慮した実時間ケプストラム平均値正規化の検討
- 少数マイクロホンを用いた音声入力手法の検討(立体音響・トランスデューサ/一般)
- 大規模コーパスを用いた音声合成システムXIMERA(音声,聴覚)
- 音声合成システムXIMERAにおける日本語合成音の自然性劣化要因の分析
- コーパス・ベース音声合成システムXIMERA(一般, 一般, チュートリアルレクチャー)
- コーパス・ベース音声合成システムXIMERA
- ATRにおける中国語テキスト音声変換システム
- 品詞列の分析にもとづく中国語音声のポーズ予測(合成・生成,韻律,一般)
- A-10-7 2段階DOA推定法に基づく音源分離手法の評価(A-10.応用音響,一般講演)
- 波形接続型音声合成における素片選択遅延時間の短縮(音声,聴覚)
- 素片接続型音声合成における最良優先探索に基づく素片選択(一般, STRAIGHTスペシャルセッション(SS))
- 波形接続型音声合成における連続素片優先探索の効果(合成, 生成, 韻律, 一般)
- 幅優先探索に基づく短遅延素片選択アルゴリズムの評価
- 短遅延素片選択におけるビーム幅制御の検討
- 短遅延音声合成のための素片選択法(合成・生成,韻律,一般)
- 音声認識を利用した携帯電話サービスの開発(パネルディスカッション「音声認識技術の実用化」)
- 音声合成用大規模音声コーパスの構築(チュートリアル: 音声収録から始めるコーパスベース音声合成, 一般, チュートリアルレクチャー)
- 無線 IP 網上における区間分割型 QoS 情報通知機能に基づくメディア品質制御手法
- 無線IP網上における区間分割型QoS情報通知機能に基づくメディア品質制御手法
- 日英バイリンガル・コーパスを用いた知覚的話者空間の推定 (音声)
- RJ-006 注視行動の予測に向けた動画像コンテンツの視覚的特徴と実測した注視点の正準相関分析(J分野:ヒューマンコミュニケーション&インタラクション,査読付き論文)
- 日英バイリンガル・コーパスを用いた知覚的話者空間の推定
- コーパスベース音声合成技術の動向[III] : コーパスの設計と評価尺度
- 2010年度喜安記念業績賞紹介 : 第3世代携帯電話向けの分散型音声認識システムの実用化
- 日英バイリンガル・コーパスを用いた知覚的話者空間の推定(オーガナイズドセッション2,聴覚・音声・言語とその障害/一般)
- 個人性を考慮した異言語音声合成に対する知覚評価
- 4-1 CGM動画像検索のための動き特徴の分散に基づいたハイライト区間抽出手法に関する考察(第4部門 メディア処理1)
- 5-7 ライトの反射光を利用した携帯電話向けユーザインタフェース(第5部門 メディア処理2)
- 歩行中でも操作しやすいウェアラブルディスプレイ向けインタラクションシステムの提案
- スマートフォン・タブレットによるスマート中国語学習教室の構築(大学教育の改善・FD)
- 個人性を考慮した異言語音声合成に対する知覚評価(オーガナイズドセッション「音声知覚生成インタラクション・音声認識合成統合技術」,音声知覚生成/聴覚コミュニケーション,一般)
- 24-1 自由視聴点技術に基づくスマートフォン向けミュージックビデオアプリケーション(第24部門デモセッション)
- 18-1 テレビ番組の探しやすさと選局の操作しやすさを特徴とする簡単リモコンGUIの試作と評価(第18部門[テーマ講演]人にやさしい情報メディア技術)
- J-056 加速度およびタッチパネルへの入力情報を用いた携帯端末の持ち手・打ち手判別(HCI(4),J分野:ヒューマンコミュニケーション&インタラクション)
- J-039 HMMに基づくフリックキーボード入力方式(インタフェース,J分野:ヒューマンコミュニケーション&インタラクション)
- カスタマイズ可能なテレビ番組表アプリの試作と評価
- カスタマイズ可能なテレビ番組表アプリの試作と評価
- カスタマイズ可能なテレビ番組表アプリの試作と評価
- カスタマイズ可能なテレビ番組表アプリの試作と評価
- Robust and Fast Search Algorithm for Lyric Search Covering Erroneous Queries due to Mishearing
- 音声合成のためのサブバンド符号化技術を用いた高速な波形生成(音声合成・音声再生,電気音響,信号処理,音声一般)
- 音声合成のためのサブバンド符号化技術を用いた高速な波形生成(音声合成・音声再生,電気音響,信号処理,音声一般)
- 音声合成のためのサブバンド符号化技術を用いた高速な波形生成(音声合成・音声再生,電気音響,信号処理,音声一般)
- タブレットデバイスにおける音声対話エージェントを用いたインタラクティブなレシピ検索インターフェイス(コミュニケーション支援及びヒューマン情報処理一般)
- タブレットデバイスにおける音声対話エージェントを用いたインタラクティブなレシピ検索インターフェイス(コミュニケーション支援及びヒューマン情報処理一般)
- 確率モデルに基づくキーボード入力方式
- 線形予測残差の尖度に基づく近端/遠端話者判別の提案(一般,時系列パターン認識,一般)