雑音下音声LSPパラメータ量子化ニューラルネットにおける中間層符号パターンと量子化歪の関連

概要

論文の詳細を見る
移動体通信では,限られた周波数帯域を有効利用するために個々の通信機器の占有周波数帯域を狭くすることが求められている.そのためには,背景雑音に強い音声の高能率符号化が必要である.我々は音声特微量の一つであるLSPを符号化する際,背景雑音に強い符号化法としてニューラルネットワークを用いたベクトル量子化(NNVQ)を検討する.本論文では,四種類の中間層符号パターンを用いた場合の量子化ひずみの比較を行い,ニューラルネットワークの学習との間の関連を明らかにする.更に符号化を行う際, EbD法により復号化のひずみを小さくするような符号を選ぶことにより, LSP誤差を最大0.007(21%)低減でき,全体として雑音入り音声に対してはVQ法よりも性能が良くなることを示す.また,符号化と復号化のニューラルネットワークを結合し,再度学習する方法でもLSP誤差を最大0.020(43%)低減できることを示す.最後に,学習時と異なるSNR音声に対するLSP誤差を調べ,背景雑音が存在する場合の学習について検討し,SNR30〜40dBでの学習が適切になることを示す.
2003-07-17