携帯電話音声に対する主観評価の精度及び客観評価尺度PESQの有効性の検証(一般)
スポンサーリンク
概要
- 論文の詳細を見る
広く利用されている客観評価尺度PESQが,背景雑音を含む携帯電話音声に有効であるかは明らかになっていない.そこで,様々な背景雑音を含む携帯電話音声についてMOS評価を実施し,PESQとの比較を行った.背景雑音を含む携帯電話音声に対するMOS値については,信頼できる値を得るために必要な評価サンプル数が明らかでないため,まず評価サンプル数とMOS値の精度の関係について調査した.次いで,十分な数の評価サンプルから得られたMOS値とPESQ値を比較した.その結果,十分な評価サンプル数で実施した2回のMOS評価と同等の精度を得るために,背景雑音を含む携帯電話音声に対するMOS評価で確保すべき評価サンプル数が40と求められた.PESQ値については,背景雑音を含む携帯電話音声に対してMOS値と強い相関があり,同一種類の背景雑音が重畳されている場合,雑音重畳時のSNRによるMOS値の差が反映されることが分かった.しかし,同一のSNRで異なる種類の背景雑音が重畳されている場合,背景雑音の種類によるMOS値の差はPESQ値には十分に反映されないことが分かった.
- 社団法人電子情報通信学会の論文
- 2004-11-19
著者
-
河井 恒
株式会社KDDI研究所
-
中島 康之
(株)KDDI研究所
-
中島 康之
株式会社KDDI研究所
-
藤田 顕吾
株式会社KDDI研究所
-
加藤 恒夫
株式会社KDDI研究所
-
山田 秀昭
株式会社KDDI研究所
-
藤田 顕吾
KDDI研究所
-
加藤 恒夫
KDDI研究所
-
河井 恒
Atr音声言語コミュニケーション研究所
-
河井 恒
株式会社kddi研究所音声処理グループ
-
河井 恒
KDD研究所
-
中島 康之
Kddi
-
中島 康之
Kddi研究所
-
中島. 康之
(株)kddi研究所
関連論文
- テレビ視聴環境を利用した顔認識のための変動学習
- 携帯型端末を用いた音声自動翻訳システムとフィールド実験(モバイルと放送の融合時代を迎えて(1セグ放送, モバイル放送, 携帯放送融合サービス, 1セグ対応携帯端末, モバイルコンテンツと放送コンテンツの融合, マルチメディア配信, ディジタル放送受信機, および一般))
- LJ-010 H.264/MPEG-4 AVCの重み付き動き補償における高速重み係数推定の一検討(J. グラフィクス・画像)
- D-11-65 TV会議用マルチ画面変換におけるDCT領域での逆動き補償の検討(D-11.画像工学A)
- 音楽情報検索向け類似テキスト検索システムの試作(音楽情報検索)
- D-11-29 JPEG2000における歪み量指定型符号量制御方式に関する一検討(D-11.画像工学A(画像基礎・符号化),一般講演)
- D-11-2 階層型秘密分散法におけるデータサイズ削減方法に関する一検討(D-11.画像工学A(画像基礎・符号化),一般講演)
- D-14-16 立体音響知覚特性測定システムの構築と基礎実験(D-14.音声・聴覚,一般講演)
- 低レートテレビ配信のためのプリフィルタ制御方式
- 低レートテレビ配信のためのプリフィルタ制御方式(画像処理1, ITS画像処理,映像メディア及び一般)
- ブロードバンド・モバイルネットワークでの動画伝送・変換技術
- サッカー映像のシーンナビゲーションに関する検討
- D-12-48 主観評価を考慮した類似顔画像判定法に関する検討(D-12. パターン認識・メディア理解, 情報・システム2)
- 携帯電話音声に対する主観評価の精度及び客観評価尺度PESQの有効性の検証(一般)
- SMILを利用した大容量番組配信サービス : EZチャンネル
- SMILを利用した大容量番組配信サービス : EZチャンネル(モバイルマルチキャスト,ブロードキャスト,モバイル放送・マルチメディア配信,ディジタル放送受信機,及び一般)
- J-071 H.264/MPEG-4 AVCインター予測フレームにおける高速符号化手法(J.グラフィクス・画像)
- H.264符号化処理における符号化モード判定に関する一検討(映像メディア処理,感性情報工学及び一般)
- D-12-174 サッカー映像におけるシーン分類に関する検討(D-12. パターン認識・メディア理解B)
- D-12-166 MPEG圧縮された映画のショット分類とシーン分割(D-12. パターン認識・メディア理解B)
- D-12-55 蓄積容量の限られた顔画像認証装置における辞書更新法(D-12.パターン認識・メディア理解A)
- D-11-53 MPEGビデオのビットレート変換トランスコーダに関する一検討(D-11.画像工学A)
- 雑音環境での認識に頑健な発声全体平均局所分散正規化法
- B-6-57 総合音声伝送品質率に基づくヘッダ圧縮処理の制御に関する一検討(B-6.ネットワークシステム,一般講演)
- 転送特性が非対称なワイヤレスリンクにおけるヘッダ圧縮性能向上に関する検討(Webサービスベースのオフィスアプリケーション・ネットワーキング・マネジメント及び一般)
- B-6-124 転送特性の異なる複合IP網における会話型アプリサービス提供に関する一検討(B-6.ネットワークシステム, 通信2)
- 背景雑音を含む携帯電話音声に対するMOS評価の精度推定とPESQの有効性検証
- B-6-115 ワイヤレスIP網におけるRTPパケット受信バッファ制御に関する一検討(B-6. ネットワークシステム, 通信2)
- 無線 IP 網上における区間分割型 QoS 情報通知機能に基づくメディア品質制御手法
- 無線IP網上における区間分割型QoS情報通知機能に基づくメディア品質制御手法
- アンサンブル学習に基づく音韻継続長のモデル化(合成, 生成, 韻律, 一般)
- 分散型音声認識の商用システム構築(特別企画「音声認識デベロッパーズフォーラム」)
- B-15-16 統合PDA端末の開発(6) : 分散型音声認証システムの実装(B-15. モバイルマルチメディア通信, 通信1)
- 大語彙汎用音声認識エンジンの評価
- 大語彙汎用音声認識エンジンの開発
- 音声翻訳システムのための声質変換法と日中英語間における評価
- 携帯型端末を用いた音声自動翻訳システムとフィールド実験
- 多言語音声の合成
- D-11-16 JPEG 2000タイルサイズ変換トランスコーダの高速化(D-11.画像工学A)
- JPEG 2000におけるタイルサイズ変換トランスコーダの検討
- JPEG 2000におけるタイルサイズ変換トランスコーダの検討(映像メディア及び一般)
- JPEG 2000におけるタイルサイズ変換トランスコーダの検討(映像メディア及び一般)
- D-11-20 JPEG2000 における離散ウェーブレット変換係数のタイルサイズ変換のための高速歪補正方式の検討
- D-12-67 類似ショット検出を用いた野球映像からのハイライト抽出に関する検討
- 連続数字認識を利用した悪戯電話排除システム
- D-11-1 ドリフト補償を伴ったMPEGストリームへの直接電子透かし挿入方式(D-11.画像工学A)
- D-11-35 MPEG ストリームへの電子透かし埋め込みに関する一検討
- 1-8 携帯電話ビデオ配信用コンテンツ制作システムの開発 : テロップテキストフオーマット
- D-11-5 DV-MPEG 変換に伴う DCT 領域上でのリサイズについての検討
- 符号情報を利用したDVからMPEG-2への高速変換アルゴリズム(画像符号化・通信・ストリーム技術および一般)
- 符号情報を利用したDVからMPEG-2への高速変換アルゴリズム
- 符号情報を利用したDVからMPEG-2への高速変換アルゴリズム
- 符号情報を利用したDVからMPEG-2への高速変換アルゴリズム
- 少数マイクロホンを用いた音声入力手法の検討(立体音響・トランスデューサ/一般)
- 低レートテレビ配信のためのプリフィルタ制御方式(画像処理1, ITS画像処理,映像メディア及び一般)
- D-11-6 MPEG-4 ビデオの複数同時符号化方式に関する一検討 (I) : マルチビットレート出力に関する検討
- 大規模コーパスを用いた音声合成システムXIMERA(音声,聴覚)
- 音声合成システムXIMERAにおける日本語合成音の自然性劣化要因の分析
- コーパス・ベース音声合成システムXIMERA(一般, 一般, チュートリアルレクチャー)
- コーパス・ベース音声合成システムXIMERA
- タイル化ウェーブレット変換画像符号化におけるタイルサイズ変換方式に関する基礎検討
- ATRにおける中国語テキスト音声変換システム
- 品詞列の分析にもとづく中国語音声のポーズ予測(合成・生成,韻律,一般)
- A-10-7 2段階DOA推定法に基づく音源分離手法の評価(A-10.応用音響,一般講演)
- 波形接続型音声合成における素片選択遅延時間の短縮(音声,聴覚)
- 素片接続型音声合成における最良優先探索に基づく素片選択(一般, STRAIGHTスペシャルセッション(SS))
- 波形接続型音声合成における連続素片優先探索の効果(合成, 生成, 韻律, 一般)
- 幅優先探索に基づく短遅延素片選択アルゴリズムの評価
- 短遅延素片選択におけるビーム幅制御の検討
- 短遅延音声合成のための素片選択法(合成・生成,韻律,一般)
- D-11-51 H.264符号化処理におけるIntra/Interモート゛判定に関する一検討(D-11.画像工学A)
- H.264符号化処理における動き予測の高速化に関する一検討
- QoS 保証型 MPEG-4べースライブ伝送システムの開発
- D-11-4 JVT と MPEG-4 ASP の動き補償の特性比較
- B-7-78 奄美大島の離島遠隔医療実験におけるMPEG-4ライブ伝送
- 音声認識を利用した携帯電話サービスの開発(パネルディスカッション「音声認識技術の実用化」)
- 音声合成用大規模音声コーパスの構築(チュートリアル: 音声収録から始めるコーパスベース音声合成, 一般, チュートリアルレクチャー)
- 無線 IP 網上における区間分割型 QoS 情報通知機能に基づくメディア品質制御手法
- 無線IP網上における区間分割型QoS情報通知機能に基づくメディア品質制御手法
- 日英バイリンガル・コーパスを用いた知覚的話者空間の推定 (音声)
- D-11-7 MPEG-4 ビデオの複数同時符号化方式に関する一検討 (II) : マルチ解像度出力に関する検討
- 携帯電話によるビデオ配信向け高機能コンテンツ制作システム
- 携帯電話によるビデオ配信向け高機能コンテンツ制作システム
- 1-7 携帯電話ビデオ配信用コンテンツ制作システムの開発 : 編集方式
- 1-6 携帯電話ビデオ配信用コンテンツ制作システムの開発 : フォーマット変換方式
- 1-5 携帯電話ビデオ配信用コンテンツ制作システムの開発 : コンテンツフォーマット
- 1-4 携帯電話ビデオ配信用コンテンツ制作システムの開発 : 基本設計
- 携帯電話によるビデオ配信向け高機能コンテンツ制作システム
- DCT領域での多地点映像合成処理についての検討
- D-11-41 TV 会議用マルチ画面変換における DCT 領域でのサイズ変更の検討
- ニュース索引のためのMPEGからのテロップ検出に関する検討
- ニュース索引のためのMPEGからのテロップ検出に関する検討
- ニュース索引のためのMPEGからのテロップ検出に関する検討
- ニュース索引のためのMPEGからのテロップ検出に関する検討
- 日英バイリンガル・コーパスを用いた知覚的話者空間の推定
- コーパスベース音声合成技術の動向[III] : コーパスの設計と評価尺度
- 2010年度喜安記念業績賞紹介 : 第3世代携帯電話向けの分散型音声認識システムの実用化
- 日英バイリンガル・コーパスを用いた知覚的話者空間の推定(オーガナイズドセッション2,聴覚・音声・言語とその障害/一般)
- 個人性を考慮した異言語音声合成に対する知覚評価
- 個人性を考慮した異言語音声合成に対する知覚評価(オーガナイズドセッション「音声知覚生成インタラクション・音声認識合成統合技術」,音声知覚生成/聴覚コミュニケーション,一般)