ベクトル量子化とスペクトラルクラスタリングによる話者クラスタリング(音声,聴覚)
スポンサーリンク
概要
- 論文の詳細を見る
録音音声中の発話の話者クラスタリング法として,発話クラスタをガウス分布などのパラメトリックモデルで表現し,クラスタ間の距離尺度としてゆう度比やKullback情報量などを用いてクラスタリングを行う方式が広く使われている.しかし討論音声など比較的短い発話を多く含む音声に対しては,モデル推定精度の劣化が生じたり,距離尺度がクラスタ間の話者性の違いよりも,発話内容の違い(音韻出現頻度の違い)に強く影響を受ける可能性がある.そこで本研究ではノンパラメトリックな発話クラスタ表現として量子化符号の出現頻度ベクトルを用いて,それらの間の余弦をクラスタ間類似度としてスペクトラルクラスタリングを行うことによる話者クラスタリング法を構成した.評価実験として,話者数,発話数や発話長分布が異なる5種類のテストセットを用意して従来法との比較を行った.話者クラスタリング精度とクラスタ純度を評価尺度として,全テストセットにおいて提案法が従来法より高い精度を与え,特に短い発話が多いテストセットで差異が顕著であることを確認した.
- 2010-11-01
著者
関連論文
- ベクトル量子化とスペクトラルクラスタリングによる話者クラスタリング
- ベクトル量子化とスペクトラルクラスタリングによる話者クラスタリング(音声,聴覚)
- ダイナミックニュ-ラルネットワ-クの提案--神経回路網とDPマッチングに基づく新しい音声認識モデル