音声対話システムにおける 簡略表現認識のための自動語彙拡張
スポンサーリンク
概要
- 論文の詳細を見る
音声対話システムにおいて,ユーザはしばしば名称の一部を省略して「簡略表現」として発話する.その結果,音声認識誤りを招く.我々は,簡略表現を元の表現の単語列の一部の単語を省略した表現として定義し,簡略表現を確率とともに自動生成して音声認識辞書に自動追加する.簡略表現の取得には,日本語では複合語を分割する必要があるが,形態素解析器のみの分割では固有名詞は必ずしも正確に分割できない.さらに,多くの簡略表現を辞書に追加すると,語彙サイズの増加により音声認識精度が劣化する.我々は,これらの問題の解決方法として,単語分割や発音推定のシステムの自動分野適応と元の表現との平仮名編集距離で表した音韻的類似度に基づく簡略表現候補の取捨選択を提案する.提案手法によって生成した簡略表現候補を推定確率とともに語彙に自動追加した結果,既存辞書内の語のみを含む発話に対する文字正解精度と簡略表現を含む発話の文字正解精度の両方が向上した.この結果から,提案手法により人手による簡略表現の追加を上回る音声認識精度が実現できることを示した.
- 2011-12-15
著者
-
森 信介
京都大学
-
勝丸 真樹
京都大学大学院情報学研究科
-
駒谷 和範
京都大学大学院情報学研究科
-
尾形 哲也
京都大学大学院情報学研究科
-
奥乃 博
京都大学大学院情報学研究科
-
尾形 哲也
京都大学情報学研究科知能情報学専攻
-
奥乃 博
京都大学情報学研究科知能情報学専攻
-
森 信介
京都大学学術情報メディアセンター
-
奥乃 博
京都大学
-
奥乃 博
Ntt基礎研究所
-
奥乃 博
Ntt ソフトウェア研究所
-
奥乃 博
日本電信電話(株)基礎研究所
-
奥乃 博
京都大学大学院情報学研究科知能情報学専攻
-
駒谷 和範
京大
-
奥乃 博
NTT(株)基礎研究所
-
奥野 博
京都大学大学院 情報学研究科 知能情報学専攻
-
駒谷 和範
名古屋大学大学院 工学研究科 電子情報システム専攻
-
奧乃 博
Ntt基礎研究所
-
勝丸 真樹
京都大学情報学研究科
-
駒谷 和範
名古屋大学
関連論文
- 現場発想による自然言語処理ブレークスルーの探求(平成21年度論文賞の受賞論文紹介)
- 複数の言語モデルと言語理解モデルによる音声理解の高精度化(音声認識・理解,情報爆発論文)
- 擬似確率的単語分割コーパスによる言語モデルの改良
- 4Q-2 音声認識と言語理解を動的に選択する音声理解フレームワーク(音声対話・音声要約,学生セッション,人工知能と認知科学)
- 音声認識と言語理解を動的に選択する音声理解フレームワーク
- 複数の言語モデル・言語理解方式を用いた音声理解の高精度化(理解)
- LE-008 音声認識結果とコンセプトへの重みづけによるWFSTに基づく音声言語理解の高精度化(自然言語・音声・音楽)
- 音声認識結果とコンセプトへの重みづけによるWFSTに基づく音声言語理解の高精度化(学生セッション I)
- マルチドメイン音声対話システムにおける対話履歴を利用したドメイン選択(音声言語)
- 5Q-3 神経回路モデルを用いた音声模倣モデルによる音声バブリングと母音獲得過程シミュレーション(ニューラルネット(1),学生セッション,人工知能と認知科学)
- 人工神経回路モデルと声道物理モデルを用いた母音模倣モデルに基づく音素獲得シミュレーション
- 残響下でのバージイン発話認識のための多入力独立成分分析を応用したロボット聴覚
- 3Y-2 顔追跡による音環境可視化システムのアウエアネスの改善(アンビエント・インタフェース,学生セッション,インタフェース)
- 5R-6 ベース音高確率とクロマベクトルの相関を考慮した和音進行認識(音楽検索・解析,学生セッション,人工知能と認知科学)
- 4R-2 音色特徴量に基づく調波・非調波統合モデルによる楽器音モーフィング(音楽演奏・生成,学生セッション,人工知能と認知科学)
- 4Q-4 音声対話システムにおける想定外発話の文法検証を用いた対話行為推定に基づくヘルプ生成(音声対話・音声要約,学生セッション,人工知能と認知科学)
- 4Q-3 実環境音声対話システムにおけるバージイン発話タイミングを活用した指示対象の同定(音声対話・音声要約,学生セッション,人工知能と認知科学)
- ドラムパターン推定によるドラム音認識誤り補正手法
- 楽譜情報を援用した多重奏音楽音響信号の音源分離と調波・非調波統合モデルの制約付きパラメータ推定の同時実現(音楽情報,新しいパラダイムの中での分散システム/インターネット運用・管理)
- ゲーム理論に基づく参照結束性のモデル化と日本語・英語の大規模コーパスを用いた統計的検証
- 部分的かつ曖昧なラベル付き構造データからのマルコフ条件付確率場の学習(情報抽出・ラベル付与)
- 最大エントロピー法による単語境界確率の推定
- 文字クラスモデルによる日本語単語分割
- 文字クラスモデルに基づく日本語単語分割
- チュートリアル&パネル 対話システム研究の進め方
- 発話行為レベルの情報を活用した音声対話システムの研究
- 音高による音色変化を考慮した楽器音の音高・音長操作手法(演奏分析・支援・加工)
- 複数の言語モデルと言語理解モデルによる音声理解の高精度化
- 楽曲推薦システムの効率性とスケーラビリティの改善のための確率的推薦モデルのインクリメンタル学習法(検索・推薦)
- 2D-1 ソフトマスクと音響モデル適応を用いた3話者同時発話音声認識(音声・音楽情報処理,一般セッション,人工知能と認知科学)
- 音声対話システムにおける簡略表現認識のための誤認識増加を抑制する自動語彙拡張(学生セッション II)
- 3U-5 音声対話システムにおけるユーザの固有名詞の簡略化に対処する語彙拡張(音声言語情報処理,学生セッション,人工知能と認知科学)
- テルミンの音高・音量特性のモデルに基づくテルミン演奏ロボットの開発
- 2X-8 音楽と自分の声を聞き分けながらビートに合わせて発声するロボットの開発(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- 音声認識のための言語処理 : 何が足りないか?(言語モデル)
- 現場発想による自然言語処理ブレークスルーの探求
- 日本語単語分割の分野適応のための部分的アノテーションを用いた条件付き確率場の学習
- 多重奏音響信号中の演奏をユーザー指定の旋律に差し替えるフレーズ置換システム
- 音声対話システムにおけるラピッドプロトタイピングを指向したWFSTに基づく言語理解
- バージイン許容音声対話システムにおけるユーザ発話の分析と指示対象同定への応用
- SpeakBySinging: 歌声を話声に変換する話声合成システム
- 多重奏音楽音響信号の音源分離のための調波・非調波モデルの制約付きパラメータ推定(認識・測定)
- 多重奏音楽音響信号の音源分離のための調波・非調波モデルの制約付きパラメータ推定(認識・測定)
- 複数の言語モデルと言語理解モデルによるラピッドプロトタイピング向け音声理解
- マルチメディアコンテンツにおける音楽と映像の調和度計算モデル
- 多重奏を対象とした音源同定 : 混合音テンプレートを用いた音の重なりに頑健な特徴量への重み付け及び音楽的文脈の利用(画像認識,コンピュータビジョン)
- Instrogram : 発音時刻検出とF0推定の不要な楽器音認識手法
- 伴奏書抑制と高信頼度フレーム選択に基づく楽曲の歌手名同定手法(音楽情報,情報処理技術のフロンティア)
- 伴奏音抑制と高信頼度フレーム選択に基づく楽曲中の歌声の歌手名同定手法
- 和音区間検出と和音名同定の相互依存性を解決する和音認識手法(音楽音響信号認識)
- 多重奏楽曲の楽器音量バランス変化による音楽ジャンルシフト
- 3種類の辞書による自動単語分割の精度向上
- 複数楽器混合モデルのパラメータ推定と楽器名同定への応用
- 音色の音高依存性を考慮した楽器音の音高操作手法
- 楽器音イコライザによる音色の類似度に基づく楽曲検索システム(音響分析一般(2))
- 4X-4 音楽と映像の調和度計算モデルを用いたクロスメディア検索(音楽情報科学(3)検索・インタフェース,学生セッション,人工知能と認知科学)
- 2X-7 楽器固有の音響的特徴を考慮した楽器音の音高操作手法(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- 2X-6 複数楽器個体による事前分布を用いた調波・非調波統合モデルのパラメータ推定(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- 2X-5 ベース音高を考慮したポピュラー音楽に対する和音進行認識(音楽情報科学(1)音楽音響,学生セッション,人工知能と認知科学)
- 音色特徴量分布の利用による調波・非調波統合モデルのパラメータ推定(音楽音響信号処理 (2))
- 独立成分分析に基づく適応フィルタのロボット聴覚への適用
- 音声認識結果とコンセプトへの重みづけによるWFSTに基づく音声言語理解の高精度化(学生セッション I)
- 遺伝的アルゴリズムを用いたパラメータ最適化による話者位置に基づく同時発話認識の向上
- 複数ドメイン音声対話システムにおける対話履歴を利用したドメイン選択の高精度化
- 3U-1 ロボット音声対話のためのMFTとICAによるバージイン許容機能の評価(音声言語情報処理,学生セッション,人工知能と認知科学)
- E-052 バージインを許容するロボット音声対話のためのICAを用いたセミブラインド音源分離(E分野:自然言語・音声・音楽)
- 6T-8 複数自由度を用いて音高特性モデルに基づく音高制御を行うテルミン演奏ロボットの開発(音楽推薦・演奏支援,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3U-2 複数の言語モデルと言語理解モデルによる音声理解手法のラピッドプロトタイピングへの適用(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 音声対話システムにおける簡略表現認識のための誤認識増加を抑制する自動語彙拡張(学生セッション II)
- 6J-6 楽器音イコライザによる楽曲音響特徴変動と類似楽曲検索への応用(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 対話コーパスにおける発話単位タグの一推定手法
- 5T-5 調波非調波GMMに基づくMIDI演奏音響信号に対する音色・演奏表情操作(音楽信号処理,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 音声対話によるソフトウェアサポートタスクのための効率的な確認戦略(音声, 聴覚)
- 5V-6 RNNを用いた行為予測による人間とロボットの協調物体配置(人工知能一般(4),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 6U-1 F0・振幅・音韻長の制御により歌声を話声に変換する話声合成システムSpeakBySinging(音声・歌声合成,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 6J-8 実環境音声認識のためのロボット聴覚システム開発とパラメータチューニング(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 6J-7 ロボット音声対話におけるSemi-blind ICAを用いた自己発話キャンセル(情報爆発時代における対話ロボティクス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 可聴域音波の広指向性と回折を利用した同時複数物体定位と遮蔽物検出(音響・超音波サブソサイエティ合同研究会)
- 2ZN-2 バージイン許容音声対話におけるLSMによる許容発話範囲の拡張(情報爆発時代における対話インタラクション,学生セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- バージイン発話タイミングモデルを導入した指示対象同定
- バージイン発話タイミングモデルを導入した指示対象同定
- バージイン発話タイミングモデルを導入した指示対象同定
- 6X-2 RNNPBによる音響模倣・分節化を用いた音素獲得モデルの提案(音声・言語処理,学生セッション,人工知能と認知科学)
- 6W-8 MTRNNを用いた単語と文法の階層的自己組織化による文の認識・生成(構文解析・生成・学習,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 5U-9 ユーザの文法知識を状態に加えたPOMDPに基づく音声対話システム(音声インタフェース・システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- ドメイン非依存な対話戦略を備えた情報検索音声対話システム(自然言語)(人工知能分野における博士論文)
- ユーザの評価と音響的特徴との確率的統合に基づくハイブリッド型楽曲推薦システム
- 3U-9 環境音から擬音語への自動変換における特徴量抽出法の検討(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 複合的言語制約に基づくキーフレーズ検出を用いた汎用的なデータベース検索音声対話プラットフォーム
- 3U-7 スペクトル推定を用いたマイク数以上の同時発話に対する音声認識(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3T-1 クラシック音楽理解力拡張インタフェースを目指して : 複数の演奏家による解釈共通旋律と解釈相違旋律の推定(音楽情報の推定と理論,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 5ZD-7 音源定位結果と音声認識結果をHMDに統合呈示する聴覚障害者向け音環境理解支援システム(障碍者補助・福祉,学生セッション,インターフェース)
- 音声対話システムにおける文法検証結果と発話履歴に基づくヘルプメッセージ候補のランキング
- 3U-7 音声対話システムにおけるWFSTに基づく文法検証を利用した動的ヘルプ生成(音声言語情報処理,学生セッション,人工知能と認知科学)
- 3K-1 音声対話システムにおける誤り原因の階層的分類とその推定に基づく発話誘導(情報爆発時代における相互コミュニケーション技術,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 点予測による自動単語分割
- 3種類の辞書による自動単語分割の精度向上
- 音声対話システムにおける 簡略表現認識のための自動語彙拡張
- 自然言語処理における分野適応(知識の転移)
- 方言対訳コーパスを用いた日本語方言音声認識システム(言語モデル・音声対話)