「音声認識」は今後こうなる!

概要

論文の詳細を見る
情報処理学会音声言語情報処理 (SLP) 研究会が 100 回を迎えた.音声認識・理解はこの 20 余年の間に当初は予想もできないほど飛躍的な進歩を遂げた.本研究会は日本における音声認識・理解研究の議論・発表の場としてその進歩に大きく貢献してきた.本稿では,この記念すべき 100 回目の研究会における一連の企画の 1 つとして,この 100 回の歩みを踏まえた上で,今後音声認識・理解研究が進むべき方向性について,4 人の研究者が提言を行う.
2014-01-24

著者

篠田浩一
東京工業大学
篠崎隆宏
東京工業大学
堀貴明
日本電信電話(株)
堀智織
(独)情報通信研究機構

関連論文

シンボル列化したシーンの学習と2種のプレイ種相関度による野球放送映像プレイ種識別(画像・映像処理)
SIFT混合ガウス分布と音響特徴を用いた映像からの高次特徴検出(テーマセッション関連,一般物体認識・画像特徴量)
F_0パターン生成モデルのための数量化I類の平均値置換による話者適応法の検討(感情音声,韻律,声質,音声生成・知覚,脳機能,一般)
CHLAC特徴と隠れマルコフモデルを用いたGait認識(一般セッション2,複合現実感のためのパターン認識・理解)
統計的モデル選択によるシーン数の自動推定を用いた動画要約(一般セッション3,複合現実感のためのパターン認識・理解)
高精度音声認識のための教師なしクロスバリデーションおよび集合適応法の提案(認識)
耐雑音音声認識のためのハフ変換による基本周波数情報抽出の高速化
音声とペン入力の同時入力に対する認識方式の検討(認識・理解・対話・一般)
数値列化したイベントシーンの学習と試合進行状況情報による制約条件を用いた野球映像イベント識別(パターン認識・メディア理解のための学習理論とその周辺)
基本周波数情報を用いたダイナミックベイジアンネットワークによる音声認識(聴覚・音声・言語とその障害,一般)
音声と手書き文字の同時入力インターフェース(マルチモーダル, コーパス・言語モデル)
十分統計量を用いた教師なし話者適応における話者選択法(一般(ポスターセッション),第9回音声言語シンポジウム)
局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出(一般,First Person Visionのための認識・理解)
音響モデル学習のための相対エントロピーを用いた学習文選択
年齢推定のための音声特徴量および推定器の検討(音声・言語・音響教育,一般)
音声と手書き文字の同時入力インターフェース(マルチモーダル, コーパス・言語モデル)
ハーモニック・クラスタリングによる多重音の基本周波数推定アルゴリズム
カテゴリ推定に基づく動的な言語モデル適応
大規模映像資源のためのマルチモーダル高次特徴検出(画像・映像処理)
十分統計量を用いた教師なし話者適応における話者選択法(一般(ポスターセッション),第9回音声言語シンポジウム)
十分統計量を用いた教師なし話者適応における話者選択法(一般(ポスターセッション),第9回音声言語シンポジウム)
音声認識における確率モデルの重み係数の自動推定(音声認識・識別,第9回音声言語シンポジウム)
音声認識における確率モデルの重み係数の自動推定(音声認識・識別,第9回音声言語シンポジウム)
音声認識における確率モデルの重み係数の自動推定(音声認識・識別,第9回音声言語シンポジウム)
最適な最小値独立置換族の構成
会議音声認識のためのスペクトル減算に基づくオンライン音源分離(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出(一般,First Person Visionのための認識・理解)
局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出(一般,First Person Visionのための認識・理解)
木構造クラスタリングを用いた動画像からの高次特徴抽出(一般セッション1,文字・文書の認識・理解)
D-14-7 手書き文字の準同期入力を併用した音声認識手法の予備検討(D-14. 音声・聴覚)
頑健なパラメタ推定のためのAggregated EM法の提案と評価(特徴量・音響モデル,第9回音声言語シンポジウム)
頑健なパラメタ推定のためのAggregated EM法の提案と評価(特徴量・音響モデル,第9回音声言語シンポジウム)
A Polynomial Time Sampling Algorithm for an Optimal Family of Min-Wise Independent Permutations (Models of Computation and Algorithms)
2. 統計的手法を用いた音声モデリングの高度化とその音声認識への応用(音声情報処理技術の最先端)
SIFT混合ガウス分布を用いた一般物体認識のためのマルチカーネル学習(テーマセッション,コンピュータビジョンとパターン認識のための機械学習と最適化,一般)
SIFT混合ガウス分布を用いた一般物体認識のためのマルチカーネル学習(テーマセッション,コンピュータビジョンとパターン認識のための機械学習と最適化,一般)
音声の有無による違いを考慮したHome video簡易編集
投球の次ショットに重きを置いたシーンのパターン化と離散隠れマルコフモデルを用いた野球放送映像の自動イベント分類
隠れマルコフモデルを用いた野球放送の自動的インデクシング(顔・ジェスチャ認識のためのパターン認識メディア理解,一般)
隠れマルコフモデルを用いた野球放送の自動的インデクシング(顔・ジェスチャ認識のためのパターン認識メディア理解,一般)
会議音声認識のためのスペクトル減算に基づくオンライン音源分離(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
会議音声認識のためのスペクトル減算に基づくオンライン音源分離(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
事後確率最大化手法を用いた言語モデルの学習
確率モデルによる多声楽曲MIDI演奏からの楽譜推定
音声認識のための複数の認識器を利用した能動学習(音響モデル,第11回音声言語シンポジウム)
音声認識のための複数の認識器を利用した能動学習
講義音声認識における講義スライド情報の利用(第8回音声言語シンポジウム)
ICASSP2007報告(研究動向を探るセッション)
頑健なパラメタ推定のためのクロスバリデーションEM法の提案(第8回音声言語シンポジウム)
頑健なパラメタ推定のためのクロスバリデーションEM法の提案(Session-5 特徴量・音響モデル,第8回音声言語シンポジウム)
頑健なパラメタ推定のためのクロスバリデーションEM法の提案(Session-5 特徴量・音響モデル,第8回音声言語シンポジウム)
頑健なパラメタ推定のためのクロスバリデーションEM法の提案
周波数帯域ごとの重みつき尤度を用いた雑音に頑健な音声認識(耐雑音)(第5回音声言語シンポジウム)
周波数帯域ごとの重みつき尤度を用いた雑音に頑健な音声認識(第5回音声言語シンポジウム : 耐雑音)
周波数帯域ごとの重みつき尤度を用いた雑音に頑健な音声認識(第5回音声言語シンポジウム : 耐雑音)
話し言葉音声の認識を目指して
話し言葉音声の認識を目指して
話し言葉音声の認識を目指して
HMM音声合成における自然性と個人性に優れた韻律モデル適応法の検討
講義音声認識における講義スライド情報の利用(Session-6 音声認識,第8回音声言語シンポジウム)
ハイブリッドモデルに基づく単視点ビデオデータにおける人間の歩行動作のトラッキング
頑健なパラメタ推定のためのAggregated EM法の提案と評価(特徴量・音響モデル,第9回音声言語シンポジウム)
講義音声認識における講義スライド情報の利用(Session-6 音声認識,第8回音声言語シンポジウム)
講義音声認識における講義スライド情報の利用
話し言葉コーパスを用いた音声認識の検討
効率的なクロスバリデーションに基づく混合ガウス分布の最適化法とその拡張(音響モデル)
ビデオ画像における人間の歩行動作の3次元トラッキング(テーマセッション(1),人の検出・計測・認識)
ビデオ画像における人間の歩行動作の3次元トラッキング(テーマセッション(1),人の検出・計測・認識)
マルチモーダル・マルチフレームな手法を用いたTRECVIDセマンティックインデクシング(テーマセッション,映像処理とTRECVID)
映像解析・検索評価ワークショップTRECVID2010の概要(テーマセッション,映像処理とTRECVID)
雑音下音声におけるスペクトル縮小の分析とその耐雑音音声認識への利用(音声一般,聴覚・音声・言語とその障害/一般)
木構造GMMを用いたセマンティックインデクシングの高速化(テーマセッション,大規模マルチメディアデータを対象とした次世代検索およびマイニング)
木構造GMMを用いたセマンティックインデクシングの高速化(テーマセッション,大規模マルチメディアデータを対象とした次世代検索およびマイニング)
D-12-120 動的特徴量を用いたHMMによる連続動作認識(D-12. パターン認識・メディア理解B)
クラウド時代の新しい音声研究パラダイム
複数ピンマイクで収音された会議音声の重畳区間検出
音声認識におけるモデル間スケーリング係数の自動推定(音声,聴覚)
映像の高性能なセマンティックインデクシングを目指して(テーマセッション,実世界文字認識と理解)
音声認識における転移学習 : 話者適応(知識の転移)
手話素単位を用いた大語彙手話認識(テーマセッション,時系列パターン認識)
手話素単位を用いた大語彙手話認識(テーマセッション,時系列パターン認識)
GMM-SupervectorとSVMを用いた映像からのイベント検出(テーマセッション,時系列パターン認識)
GMM-SupervectorとSVMを用いた映像からのイベント検出(テーマセッション,時系列パターン認識)
固定監視カメラからの人混み中の行動イベント検出(実世界センシングとその応用)
固定監視カメラからの人混み中の行動イベント検出(実世界センシングとその応用)
映像検索技術の新たな潮流
音声認識におけるモデル間スケーリング係数の自動推定
GMM-Supervector とSVMを用いた映像からのイベント検出
手話素単位を用いた大語彙手話認識
音声認識における転移学習 : 話者適応
映像のセマンティックインデクシングのためのq-混合ガウス分布
GMM-Supervector とSVMを用いた映像からのイベント検出
映像検索技術の新たな潮流
「音声認識」は今後こうなる!
映像のセマンティックインデクシングのためのq-混合ガウス分布(テーマセッション,コンピュータビジョンとパターン認識のための機械学習及び企業ニーズセッション)
話者認識技術の現状と課題(オーガナイズドセッション(パネルディスカッション),音声アプリケーション,一般)
カメラの動き補正に基づく時空間特徴量とGMM supervectorを用いた映像からのイベント検出(テーマセッション,大規模データベースとパターン認識)
映像のセマンティックインデクシングのためのq一混合ガウス分布(コンピュータビジョンとパターン認識のための機械学習及び企業ニーズセッション)
コミッティに基づく能動学習・半教師付き学習を用いた音声モデル
GMM Supervectorとビデオクリップスコアを用いた映像のセマンティックインデクシング(テーマセッション,大規模データベースとパターン認識)

「音声認識」は今後こうなる!

スポンサーリンク

概要

著者

関連論文

スポンサーリンク