木構造を用いた音韻連鎖統計モデル
スポンサーリンク
概要
- 論文の詳細を見る
計算機における連続音声認識では、処理の効率化のために種々の言語情報を用いている。これらの言語情報としてシンボル連鎖に関する統計情報があり、認識の誤り訂正や曖昧性の解消に有効であることが知られている。連鎖の統計情報には音韻などのシンボルの生成をマルコフ過程とみなし、シンボル列の生成確率を近似するN-gramモデルがあり、統計的言語モデルとして注目されている。N-gramによる言語モデルは与えられた観測データの量が限られている場合やマルコフ過程の次数を上げ、コンテキストの弁別性を高めた時にコンテキストの組合せ数の増加で生じるデータの減少・欠落によって統計的信頼性を損ねることがあった。私達は、コンテキストに応じて参照するシンボルの連鎖長を変化させ、統計モデルの信頼性の低下を避けながら弁別性の高いモデルを生成する手法、「木構造を用いた音韻連鎖統計モデル(Vari-gram)」を提案した。Vari-gramは、コンテキスト生成と後続シンボル生成の結合確率のエントロピーを最大化するコンテキストに注目し、そのコンテキストの連鎖を後方に伸長して新たなモデルを生成する。さらに、このモデルがN-gramより優れた特性を持つことを示した。本論文ではVari-gramの設計方針と統計的連鎖モデルの良さの指標のひとつとされる条件付きエントロピーの関係について考察するとともに、Vari-gramモデルを連続音声認識システムの言語モデルに適用し、実際の音声認識における有効性について検証する。
- 一般社団法人情報処理学会の論文
- 1993-03-01
著者
関連論文
- ジェスチャインタフェースのための指先動作軌跡の統計的分割と正規化(信号処理,知的マルチメディアシステム,及び一般)
- ジェスチャインタフェースのための動作軌跡信号の統計的分割と認識(セッション4 : 理解るインタフェース : 手+足+触覚)
- 多様な音響環境下における音声認識システム利用時のデータ収集システム(音声,聴覚)
- 自動車運転のマルチモーダル信号収録装置の開発(マルチモーダルシステム,システム開発論文)
- 運転操作信号のケプストラム分析に基づく運転者識別
- 運転行動信号に含まれる個人性のモデル化(自動車・交通におけるコミュニケーション&インタフェース及び一般)
- ニュース音声コーパスの構築
- 有声・無声休止区間の自動検出を考慮したデコーディングによる自由発話音声認識の性能改善(音声,聴覚)
- デモンストレーション:若手による研究紹介IV
- メディア処理(メディア情報,映像情報メディア年報)
- 広告音声に見られる韻律的特徴とその制御要因に関する考察
- 音声認識における特徴ベクトルの信頼度尺度
- 電総研のマルチモーダル対話システム
- 6U-7 音響情報を用いたライフログデータのインデキシング(ネットワーク応用,学生セッション,ネットワーク)
- 音響情報を用いたライフログデータのクラスタリング
- スペクトル情報を用いたライフログ映像のシーン検出
- 楽曲検索音声対話システムの評価 (感性)
- 音声・視覚・画像を統合した対話システムの試作
- 非言語的現象の分析と対話処理 : 電子メール討論(音声対話システムの実力と課題)
- スペクトル分析を用いた運転行動信号に含まれる個人性のモデル化(マルチメディア処理)
- LL-007 ケプストラム分布を用いた実環境下の運転行動信号に含まれる個人性のモデル化(L分野:ネットワークコンピューティング)
- 自動車走行観測信号に含まれる個人性のモデル化(信号処理, 符号化とそれらを用いた知的マルチメディアシステム, 一般)
- 自動車走行観測信号に含まれる個人性のモデル化(信号処理, 符号化とそれらを用いた知的マルチメディアシステム, 一般)
- 自動車走行観測信号に含まれる個人性のモデル化(信号処理, 符号化とそれらを用いた知的マルチメディアシステム, 一般)
- 運転行動信号に含まれる個人性のモデル化(自動車・交通におけるコミュニケーション&インタフェース及び一般)
- LK-004 運転行動信号に含まれる個人性に関する検討(K. ヒューマンコミュニケーション&インタラクション)
- 被覆率を重視した大語彙連続音声認識用統計的言語モデル
- WOZシステムで収録した自由発話音声の対話データベース
- 音声認識用統計的言語モデルのための形態素解析済みテキストの後処理
- ノンバーバル情報を導入した音声・画像統合対話システムでの初期データ収録
- ノンバーバル情報を導入した音声・画像統合対話システムの設計
- 複数サンプルを用いた未知語の音韻系列の推定
- はい, がんばります (インタラクティブ・エッセイ)
- 独立行政法人は儲けてナンボ? (インタラクティブ・エッセイ)
- 5T-7 音声認識を用いた歌声追尾歌詞表示システム(音楽信号処理,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 音声認識読み記号および音声関連ソフトウエアに係わる用語の試行標準案
- SIG-SLP/SIG-NL合同セッションここまでできるぞ音声/言語処理技術 : 音声編
- ここまでできるぞ音声/言語処理技術 : 音声編
- カスタマイズ性を考慮した擬人化音声対話ソフトウェアツールキットの設計(音声言語情報処理とその応用)
- 日本語ディクテーションのための言語資源・ツールの整備
- 日本語ディクテーションのための言語資源・ツールの整備
- 擬人化音声対話エージェント基本ソフトウェアの開発プロジェクト報告(プロジェクト紹介(2))(第5回音声言語シンポジウム)
- 擬人化音声対話エージェントツールキットGalatea
- 擬人化音声対話エージェント開発プロジェクト
- 3L-4 多様な利用環境における楽曲検索音声対話システムのフィールドテストと評価(リーディングプロジェクト e-society:自然な音声対話処理技術(1),一般セッション,リーディングプロジェクト e-society)
- 楽曲検索システムにおけるプレイリストに適応した音響モデル構築手法に関する検討(音響・音韻モデル)
- 汎用PC上で利用された音声対話システムによる音声収集と評価(第8回音声言語シンポジウム)
- 汎用PC上で利用された音声対話システムによる音声収集と評価(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- 汎用PC上で利用された音声対話システムによる音声収集と評価(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- 長期間の音声対話インタフェース利用時における学習効果の評価
- 音声対話インタフェースの長期利用時における学習効果の評価
- 音声対話による楽曲検索システム(音声対話システムA)(テーマ:音声対話システム、音声言語情報処理、一般)
- ユーザ評価と達成度との相関に基づく音声対話システムの品質評価の予備的検討(対話インタフェース)(第5回音声言語シンポジウム)
- ユーザ評価と達成度との相関に基づく音声対話システムの品質評価の予備的検討(第5回音声言語シンポジウム : 対話インタフェース)
- ユーザ評価と達成度との相関に基づく音声対話システムの品質評価の予備的検討(第5回音声言語シンポジウム : 対話インタフェース)
- 2000-NL-137-7 / 2000-SLP-31-2 日本語ディクテーション基本ソフトウェア(99年度版)の性能評価
- 2000-NL-137-7 / 2000-SLP-31-2 日本語ディクテーション基本ソフトウェア(99年度版)の性能評価
- 日本語ディクテーション基本ソフトウェア(98年度版)の性能評価
- 日本語ディクテーション基本ソフトウェア(98年度版)の性能評価
- ディクテーションにおける形態素辞書エントリと読みの整備の効果
- 日本語ディクテーション基本ソフトウェア(97年度版)の性能評価
- 日本語ディクテーション基本ソフトウェア(音声処理技術のデモの紹介)
- 連続音声認識コンソーシアム2000年度版ソフトウエアの概要と評価
- 運転者の発話と運転行動を用いた危険な状況の検出(認識・検出)
- 6U-5 1/fゆらぎを用いた癒し効果のある音の生成(音声・歌声合成,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 相平面に描かれる歌声の基本周波数軌跡:歌唱者の意図する音高目標値系列の推定とハミング検索への応用
- AS-5-2 相平面を利用した歌声のF0軌跡の新しい表現方法(AS-5. 音響信号のモデリングと表現,シンポジウムセッション)
- 歌声の旋律と動的変動を特徴付けるための確率的な表現手法に関する検討(音楽音響信号処理 (1))
- 音声だけでシームレスにハミング検索と曲名検索が可能な楽曲検索システム
- スペクトル包絡と基本周波数の時間変化を利用した歌声と朗読音声の識別(音楽情報,情報処理技術のフロンティア)
- 単語の共起関係と構文情報を利用した単語階層関係の統計的自動識別
- 局所的・大局的な特徴を利用した歌声と朗読音声の識別
- 基本周波数とスペクトル包絡を利用した歌声と朗読音声の識別に関する検討
- LF-001 事典コーパスを用いた単語階層関係の統計的解析(F. 人工知能)
- 大語彙日本語連続音声認識研究基盤の整備 : 汎用音素モデルの作成
- 大語彙日本語連続音声認識研究基盤の整備 : 学習・評価テキストコーパスの作成
- 大語彙日本語連続音声認識研究基盤の整備 : 評価用連続音声認識プログラムの開発
- 1U-6 コンテンツ制作における収録音編集のための音声強調(音声分析・強調,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- バイモーダル車内音声認識評価用データベースの構築
- 二段雑音スペクトルの推定と回帰による車内音声認識
- 二段雑音スペクトルの推定と回帰による車内音声認識
- 二段雑音スペクトルの推定と回帰による車内音声認識
- 二段雑音スペクトルの推定と回帰による車内音声認識(ポスターセッション)(第6回音声言語シンポジウム)
- 二段雑音スペクトルの推定と回帰による車内音声認識(ポスターセッション)(第6回音声言語シンポジウム)
- 二段雑音スペクトルの推定と回帰による車内音声認識(ポスターセッション)(第6回音声言語シンポジウム)
- 日本語ディクテーション基本ソフトウェア(97年度版)の性能評価
- 映像付き雑音環境下音声認識評価用共通データベースAURORA-2J-AV/AURORA-3J-AVの構築(一般セッション(4) : 福祉・医療のためのパターン認識・メディア理解)
- 映像付き雑音環境下音声認識評価用共通データベースAURORA-2J-AV/AURORA-3J-AVの構築(福祉・医療のためのパターン認識・メディア理解)
- 映像付き雑音環境下音声認識評価用共通データベースAURORA-2J-AV/AURORA-3J-AVの構築(福祉・医療のためのパターン認識・メディア理解)
- 「読み」情報に基づく高被覆率言語モデルを用いた大語彙連続音声認識
- 複数の認識器を選択的に用いる音声認識システムのためのスコア補正法(音声,聴覚)
- 1U-5 高齢者向け音声強調(音声分析・強調,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 1U-4 音声強調を用いたホームビデオの音質改善(音声分析・強調,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 木構造を用いた音韻連鎖統計モデル
- 木構造を用いた音韻連鎖統計モデル
- 木構造を用いた音韻連鎖統計モデル
- 音声補完: 音声ワイルドカード補完機能の実現
- 音声補完:単語補完ができる新たな音声入力インターフェース
- 有声休止箇所のリアルタイム検出システムの評価
- ジェスチャインタフェースのための指先動作軌跡の統計的分割と正規化(信号処理,知的マルチメディアシステム,及び一般)