単語trigramを用いた大語彙連続音声認識

概要

論文の詳細を見る
大語彙連続音声認識システムの性能は、音響モデルだけではなく、使用する言語モデルの性能にも大きく依存する。本研究では、言語モデルとして日本語で初めて、マルチパスアプローチによって単語 trigram を適用した。語彙を7000語に限定した上で、日経新聞約5年分のテキストから言語モデルを学習し、不特定話者の音声を用いた新聞文章の読み上げタスクによって評価を行った結果、従来の単語 bigram 言語モデルを用いた場合より誤り率が44%削減され、単語正解精度で約90%の性能を得ることが出来た。
社団法人電子情報通信学会の論文
1996-12-13

著者

古井貞熙
東京工業大学大学院情報理工学研究科計算工学専攻
松岡達雄
Nttマルチメディアビジネス開発部
松岡達雄
Ntt
松岡達雄
NTTヒューマンインタフェース研究所
吉田航太郎
東京工業大学
大附克年
早大・理工
大附克年
NTTヒューマンインタフェース研究所
古井貞熙
東京工業大学
大附克年
マイクロソフトディベロップメント株式会社

関連論文

年齢推定のための音声特徴量および推定器の検討 (音声)
局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出 (医用画像)
音声認識実用化技術の展開(総合報告)
SIFT混合ガウス分布と音響特徴を用いた映像からの高次特徴検出(テーマセッション関連,一般物体認識・画像特徴量)
WFST音声認識デコーダにおけるon-the-fly合成の最適化処理(音声,聴覚)
携帯端末上でのプロキシ編集(映像理論・映像システム,画像処理・符号化及び一般)
頑健な区間検出とモデル適応に基づく雑音下音声認識(雑音下音声処理)(第6回音声言語シンポジウム)
F_0パターン生成モデルのための数量化I類の平均値置換による話者適応法の検討(感情音声,韻律,声質,音声生成・知覚,脳機能,一般)
CHLAC特徴と隠れマルコフモデルを用いたGait認識(一般セッション2,複合現実感のためのパターン認識・理解)
統計的モデル選択によるシーン数の自動推定を用いた動画要約(一般セッション3,複合現実感のためのパターン認識・理解)
話者認識研究の現状と展望
1991年音響・音声・信号処理国際会議(ICASSP91)報告
自由発声中の連続数字音声認識
連続音声認識のためのネットワーク構造を用いた効率的探索手法
音韻ラベルを用いない HMM 評価法とそれを用いた連続音声認識用 HMM の評価
番号案内を対象とした大語い連続音声認識アルゴリズム
フレーム間相関を利用した音韻 HMM による音声認識
話し言葉音声の音響的・言語的特徴の分析
局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出(一般,First Person Visionのための認識・理解)
1 音声認識技術の実用化への取り組み(音声認識技術の実用化への取り組み)
音響モデル学習のための相対エントロピーを用いた学習文選択
年齢推定のための音声特徴量および推定器の検討(音声・言語・音響教育,一般)
音声・非音声の信頼度を利用した雑音に頑健な音声認識デコーダの検討(音声・言語・音響教育,一般)
音声の有無による違いを考慮した Home video 簡易編集
大規模映像資源のためのマルチモーダル高次特徴検出(画像・映像処理)
マルチストリーム話者照合におけるブースティングに基づく重み最適化法の検討(ポスターセッション)(第6回音声言語シンポジウム)
マルチストリーム話者照合におけるブースティングに基づく重み最適化法の検討(ポスターセッション)(第6回音声言語シンポジウム)
マルチストリーム話者照合におけるブースティングに基づく重み最適化法の検討(ポスターセッション)(第6回音声言語シンポジウム)
会議音声認識のためのスペクトル減算に基づくオンライン音源分離(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出(一般,First Person Visionのための認識・理解)
局所的な特徴と大局的な特徴を用いた監視カメラ映像からの行動イベント検出(一般,First Person Visionのための認識・理解)
N-bestに基づく話者適応化法の検討
N-bestに基づく教師なし話者適応化法
連続数字音声認識における音響モデル学習法の検討
連続数字音声における音響モデル学習法の検討
テキストコーパスを用いた音声理解のための言語モデル自動獲得
SIFT混合ガウス分布を用いた一般物体認識のためのマルチカーネル学習(テーマセッション,コンピュータビジョンとパターン認識のための機械学習と最適化,一般)
SIFT混合ガウス分布を用いた一般物体認識のためのマルチカーネル学習(テーマセッション,コンピュータビジョンとパターン認識のための機械学習と最適化,一般)
WFST駆動音声認識デコーダの最近の評価結果(デコーダ,第11回音声言語シンポジウム)
WFST駆動音声認識デコーダの最近の評価結果(デコーダ,第11回音声言語シンポジウム)
N-best候補を用いた話題抽出の検討
ニュース音声を対象とした連続音声認識に基づく話題抽出
ニュース音声を対象とした大語彙連続音声認識と話題抽出
ニュース音声を対象とした大語彙連続音声認識
高次n-gramを用いた大語彙連続音声認識の検討
新聞記事データベースを用いた大語い連続音声認識
テキストコーパスを用いた音声理解のための言語モデル自動獲得
統計的翻訳言語モデルを用いた音声理解
単語trigramを用いた大語彙連続音声認識
統計的翻訳言語モデルを用いた音声理解
単語trigramを用いた大語彙連続音声認識
音声理解のための言語モデル自動獲得
新聞記事読み上げタスクを用いた大語彙連続音声認識における音響モデルの検討
新聞読み上げタスクを用いた大語彙連続音声認識における言語モデルの検討
テキストコーパスを用いた音声理解のための言語モデル自動獲得
新聞記事を用いた大語彙連続音声認識の検討
音声の有無による違いを考慮したHome video簡易編集
科学技術振興調整費開放的融合研究推進制度 : (小特集:) : 大規模コーパスに基づく『話し言葉工学』の構築
会議音声認識のためのスペクトル減算に基づくオンライン音源分離(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
会議音声認識のためのスペクトル減算に基づくオンライン音源分離(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
ニュース音声を対象とした言語モデルと話題抽出の検討
大語彙日本語連続音声認識研究基盤の整備 : 汎用音素モデルの作成
大語彙日本語連続音声認識研究基盤の整備 : 学習・評価テキストコーパスの作成
大語彙日本語連続音声認識研究基盤の整備 : 評価用連続音声認識プログラムの開発
ニュース音声認識のための言語モデルと音響モデルの検討
音声認識のための複数の認識器を利用した能動学習(音響モデル,第11回音声言語シンポジウム)
音声認識のための複数の認識器を利用した能動学習
講義音声認識における講義スライド情報の利用(第8回音声言語シンポジウム)
マルチモーダル音声認識におけるストリーム重み係数最適化の検討(ポスターセッション)(第5回音声言語シンポジウム)
横顔の動画像情報を用いたマルチモーダル音声認識(自然言語情報処理研究会と一部合同開催 : マルチモーダル・音声インタフェース関連)
周波数帯域ごとの重みつき尤度を用いた雑音に頑健な音声認識(耐雑音)(第5回音声言語シンポジウム)
頑健な区間検出とモデル適応に基づく雑音下音声認識(雑音下音声処理)(第6回音声言語シンポジウム)
頑健な区間検出とモデル適応に基づく雑音下音声認識(雑音下音声処理)(第6回音声言語シンポジウム)
HMM音声合成における自然性と個人性に優れた韻律モデル適応法の検討
マルチモーダル音声認識におけるストリーム重みの教師なし推定法の検討
話し言葉音声合成の韻律制御に関する検討
マルチモーダル音声認識におけるストリーム重みの教師なし推定法の検討
話し言葉音声合成の韻律制御に関する検討
何かが欠けている音声認識研究(第11回音声言語シンポジウム)
何かが欠けている音声認識研究(第11回音声言語シンポジウム)
新聞記事を用いた大語彙連続音声認識の検討
音声理解のための言語モデル自動獲得の検討
マルコフモデルによる文仮説の再編成
IVTTA94会議報告
不特定話者認識
自由発話を対象とした対話システムの構築と評価
雑音下音声におけるスペクトル縮小の分析とその耐雑音音声認識への利用
大語彙連続音勢認識研究用日本語コーパス : JNAS
大語彙連続音声認識のための読み上げ文コーパスの構築
音声自動要約を利用した講演速聞きシステムの検討(自然言語情報処理研究会と一部合同開催 : NL・SLP合同開催 : 音声対話1)
教師なしクロスバリデーション適応法の諸条件における評価
教師なしクロスバリデーション適応法の諸条件における評価
5X-8 User identification using Time-of-Flight camera image streams
雑音に頑健な音声認識のための韻律情報の利用(自然言語情報処理研究会と一部合同開催 : 自動車内音声対話関連)
ハフ変換による雑音に頑健な基本周波数抽出法
雑音下音声におけるスペクトル縮小の分析とその耐雑音音声認識への利用(音声一般,聴覚・音声・言語とその障害/一般)
Slice Chain Max-Sumアルゴリズムによるタンパク質のポテンシャルエネルギー最小化に関する研究
軽量な画像特徴量を用いたマルチモーダル音声認識(音声、聴覚,学生論文)
隠れマルコフモデルを用いた眼電位認識の研究(一般セッション,時系列パターン認識)
隠れマルコフモデルを用いた眼電位認識の研究(一般セッション,時系列パターン認識)

単語trigramを用いた大語彙連続音声認識

スポンサーリンク

概要

著者

関連論文

スポンサーリンク