2チャネル音声集音系における楕円積分を乗算係数に用いたスペクトル減算法(音声, 聴覚)
スポンサーリンク
概要
- 論文の詳細を見る
雑音環境下で音声認識性能が劣化する問題に対し, スペクトル減算法が提案されて久しい. 初期の方法は, 固定の減算係数を用いてスペクトル減算を行い, 減算係数は予備実験により事前に決定するものであった. 後に, 雑音環境(SN比)に応じて減算係数を変化させる方法--非線形スペクトル減算(ノンリニアSS)法が提案された. 本研究では, これらの経緯を踏まえ, 今一度スペクトル減算法の原点に帰って, 理論的な定式化を試みる. そして, 音声に雑音が重畳した場合に, もっともらしい雑音重畳音声を解析的に求める. これにより, スペクトル減算法では, 従来から用いられてきた減算係数以外に, 楕円積分を用いた乗算係数が必要になることが導かれる. 本研究では, この乗算係数を用いたスペクトル減算法を提案するとともに, 乗算係数を用いたスペクトル減算法と従来法との混合法を提案する. 提案法の効果を検証するために, 主マイクと参照マイクを併用した2チャネル音声に対して提案法を適用して得られる音声特徴量を用いた音声認識実験を行う. SN比が既知の実験では, 広範囲なSN比の環境において, 混合法の有効性が確認された.
- 社団法人電子情報通信学会の論文
- 2005-10-01
著者
-
小早川 健
Nhk放送技術研究所
-
比留間 伸行
NHK放送技術研究所
-
浦谷 則好
NHK放送技術研究所
-
浦谷 則好
Nhk放送技術研究所:(現)東京工芸大学
-
浦谷 則好
(財)nhkエンジニアリングサービス
-
比留間 伸行
Nhk 放送技研
関連論文
- 単語格子とマルコフモデルによる日本語機能表現の解析 : 日本語機能表現辞書「つつじ」を用いて(解析)
- 部分文字列への最適な分割と文脈を考慮した変換による翻字処理(自然言語処理)
- 幼児の紙とコンピュータでの描画比較に関する定量的な行動分析
- F-044 野球知識ベースを用いたダイジェスト制作システムの開発(F分野:人工知能・ゲーム)
- K-074 知識を統合しユーザの疑問に答えるTVエージェント(K分野:ヒューマンコミュニケーション&インタラクション)
- A-15-22 番組に関するユーザの疑問に答えるTVエージェントシステム(A-15. ヒューマン情報処理, 基礎・境界)
- B-024 番組情報獲得システムにおけるラッパエージェント構築法(B.ソフトウェア)
- 番組分割に向けたクローズドキャプション中の反復句抽出(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- E-013 半教師あり学習による事物間の関係を表現する典型的な構文構造の抽出(自然言語・音声・音楽,一般論文)
- E-011 クローズドキャプションを対象とした番組シーン分割手法の検討(自然言語・音声・音楽,一般論文)
- 17-3 運動視差量を変化させたときの視覚効果に関する一考察
- テレビ受信ナビシステムにおける番組選択用リモコンに関する評価実験 : 様々な視聴者が視たい番組を簡単に選択受信できるテレビを目指して(映像メディア処理,感性情報工学及び一般)
- 自発的空間的注意による脳活動の左右視野差 : 光トポグラフィによる研究(日本基礎心理学会第26回大会,大会発表要旨)
- 立体ディスプレイに対する焦点調節特性と視覚疲労
- 見かけの距離に対する調節及び輻輳の反応特性
- 調節微動と瞳孔径 : パワースペクトルの高・低周波成分
- 2-3 調節機能とその画質評価への応用(2.動き知覚と眼球運動)(視覚と画質)
- 言い換えを利用したリスピーク方式によるスポーツ中継のリアルタイム字幕制作(音声,聴覚)
- E-058 放送に対する反響抽出の課題(E分野:自然言語・音声・音楽)
- 2チャネル音声集音系における楕円積分を乗算係数に用いたスペクトル減算法(音声, 聴覚)
- E-001 クローズドキャプションを対象とした因果関係知識抽出の検討(E分野:自然言語)
- TVエージェントシステムの開発 ('05〔NHK〕技研公開 研究発表 特集号)
- 生字幕放送のためのリスピーク方式音声認識 (音声認識による字幕サービス 特集号)
- フィルターバンクサブトラクションによる雑音環境下の音声認識 (音声認識による字幕サービス 特集号)
- 視線情報を利用した番組選択インタフェースの開発(セッション5 : マルチモーダルデザイン(2))
- K-074 視線情報を利用したテレビ用ユーザインタフェースの開発(K.ヒューマンコミュニケーション&インタラクション)
- 生字幕放送のための音声認識 : システムの概要とリスピークの効果
- 連続音声認識における動的特徴量の高精度な計算法
- 音声認識における高精度な動的特徴量計算法の提案
- 音声認識における高精度な動的特徴量計算法の提案
- 音声認識における高精度な動的特徴量計算法の提案
- 視知覚状態の推定に用いる脳血流反応の時空間的特徴 (「BMI/BCI時代の心理学とVR」特集)
- 視覚皮質のNIRS信号を用いた知覚状態の推定の試み
- 視覚皮質のNIRS信号を用いた知覚状態の推定の試み(マルチモーダル情報処理とインタフェース&応用システム及び一般)
- 7-4 高齢者によるデータ放送コンテンツのユーザーインターフェース評価
- プロトコル分析を用いたデータ放送コンテンツのユーザーインターフェース評価
- プロトコル分析を用いたデータ放送コンテンツのユーザーインターフェース評価
- 両眼融合式立体画像における大きさの知覚と輻輳運動(3次元画像情報技術)
- 3.ヒューマンインフオメーション(映像情報メディア年報)
- テレビ画面上のGUI操作環境における高齢者のリモコン操作性評価--人にやさしいテレビ用インターフェースをめざして (人にやさしい技術特集号)
- テレビ画面上のGUI操作環境における高齢者のリモコン操作性評価
- 10-6 高齢者におけるテレビ用リモコンの印象と操作行動
- 10-5 高齢者を対象としたテレビの見出し画面に対する各種リモコン方式の操作実験
- 10-2 視覚障害者のためのISDB見出し画面選択の一方法
- 文融合法に基づいた放送ニュースリード文の具体化
- 音声認識を利用した放送用ニュース字幕制作システム
- 混合正規分布型HMMにおける混合数の増加法の検討
- 連続音声認識のためのスタックデコーダの作成
- ニュース音声認識システム(音声処理技術のデモの紹介)
- 無拘束型3次元オプトメータの開発
- 創造的制作作業に適したカラーパレット "Tile Palette" の提案
- 光感受性発作を防止する映像変換技術の開発
- 3.ヒューマンインフォメーション(3.ヒューマンインフォメーション)(映像情報メディア年報)
- 番組視聴時の視線分布と番組内容理解度の関係
- 実視標と立体視標に対する調節反応量
- 立体ディスプレイに対する焦点調節特性と視覚疲労
- 距離, 輻湊角, 大きさが調節反応に及ぼす影響
- 立体テレビ番組観視中の調節応答の測定 (立体画像)
- 立体テレビ番組観視中の調節応答の測定(次世代画像技術)
- 7-2 立体テレビ番組に対する調節応答
- 7-1 3次元オプトメータ(TDO)と3次元視覚刺激装置(TVS)
- A-19-5 2次元触覚パタンの提示条件がオブジェクトの探索に与える影響(A-19.福祉情報工学,一般講演)
- 筆順による文字推定課題において視聴覚二重課題が視線に与える影響
- 4-2 テレビ操作のための指差しによる位置情報入力装置
- 短いフレーム間隔による連続音声認識の検討
- 両眼融合式立体画像に対する高齢者の目の焦点調節
- 5-1「出会いのメディアとしての放送」(5.国際放送シンポジウム(IBS)'95放送メディアの論文選奨入選論文)(マルチメディア時代のテレビの役割)
- HP-1-1 ディジタル放送と情報バリアフリー技術(HP-1.放送メディアにおける福祉情報の現状と可能性,パネル討論,ソサイエティ企画)
- テレビのユニバーサル化 : デジタル放送から将来の総合情報端未へ(ユニバーサルデザインの実例,ユニバーサルデザイン)
- 状態共有トライフォンHMMとtied-mixture HMMのモデル構造の比較
- フィルタバンク・サブトラクションを用いたニュース番組現場リポート音声の認識
- フィルタバンク・サブトラクションを用いたニュース番組現場リポート音声の認識
- フィルタバンク上でのスペクトルサブトラクションを用いた中継音声の認識
- 連続音声認識のための音響モデルの評価法の検討
- 16-3 フォトレフラクション法を用いた眼球焦点調節測定装置の試作
- 11-6 刺激提示時間と調節応答に関する一考察
- A-19-1 解説放送に向けた台本作成支援ツール試作評価(A-19.福祉情報工学,一般セッション)
- 17-1 テレビジョン画像が水晶体焦点調節に及ぼす影響
- 8-2 プロトコル分析によるテレビの見出し画面構成の評価実験
- 3)両眼融合式立体画像における大きさの歪と輻輳運動(ヒューマンインフォメーション研究会)
- 両眼融合式立体画像における大きさの歪みと輻輳運動
- ISDB用リモコンの操作性に関する評価実験
- ブレインコミュニケーション-脳と社会の通信手段-, 相良和彦,田中靖人,竹市博臣,山下宙人,長谷川良平,岡部達哉,前田太郎(共著), 電子情報通信学会, 2011-04, A5判, 定価(本体4,000円+税)
- 視知覚状態の推定に用いる脳血流反応の時空間的特徴(「BMI/BCI時代の心理学とVR」特集)
- 放送番組に対する意見マイニングと述語の解析(意見抽出/文書分類,第1回テキストマイニング・シンポジウム)
- 日本語から手話への固有名詞の機械翻訳
- CGによる手話アニメーションの自動生成システム
- 4-6 野球オントロジーを利用したダイジェスト生成手法に関する一検討(第4部門 ヒューマンインフォメーション)
- 6-1 Q&Aシステムのための野球オントロジーの設計に関する検討(第6部門 インターフェース,画像・動画処理,その他)
- 15-3 創作作業に適したカラーパレット"Tile Palette"の提案(第15部門 ヒューマンインフォメーション3)
- 1-2 注視点分布に基づく客観的番組評価手法(第1部門 視覚の特性・評価)
- 7-8 視覚障害者向けマルチメディアブラウジング技術における視覚的コンテンツのマルチモーダル提示とユーザインタフェース(UI)(第7部門 マルチメディア・ヒューマンインタフェース)
- 20-6 番組選択行動における視線と興味の関係(第20部門 視覚の心理・生理)
- 20-10 光トポグラフィを用いた人間の視知覚の推定 : SVMによる脳活動の分類(第20部門 ヒューマンインフォメーション)
- 9-7 視線測定における対話的な誤差補正法の開発(第9部門ヒューマンインフォメーション)
- 5-4 形態素記述情報を用いた手話映像生成の一検討(第5部門 CGモデリングとその応用)
- J-038 ボトムアップ要因による視線分布の推移推定(HIP(1),J分野:ヒューマンコミュニケーション&インタラクション)
- A-19-14 固有名詞の手話翻訳システム(A-19.福祉情報工学)
- 番組視聴中の脳活動からの「笑い」の解読(「バーチャル空間・特殊空間の知覚・認知」,「多感覚知覚」,及びヒューマン情報処理一般)
- 大規模データの俯瞰とターゲットデータの抽出に対する文書-単語行列の特異値分解と特異値による重みづけの有効性