Voice Across Japanデータベース

概要

論文の詳細を見る
90年代に入り音声認識の研究はフィールド実験がさかんに行われるようになり, 中でも, 電話回線を通したアプリケーションは大規模なシステムが開発されるにいたっている. その結果として, 話者の個人差により認識率に大きなちがいがあることは分かっていたが, どのような原因がどの程度, 認識率に影響を与えているのかは不明瞭であった. 本論文では, 電話回線を通じて大規模な話者数を要する音声データベース(VAJデータベース)を構築し, それにより話者の年齢や出身地が音声認識にどのような影響を与えるのかを分析するものである. まず, 日本全国から電話回線を通して, 8,866人の音声データを収録した. 話者の選定には性別, 年齢, 出身地に関してできる限り日本の人口比に近い比率でサンプリングを行った. このデータベースを用いて, Hidden Markov Model(HMM)をトレーニングして, 学習に用いていないデータで評価した結果, 年齢が音声認識に最も強く影響を与えていることが明らかになった. 20代, 30代, 40代の声は比較的よく似ているが, 10代, あるいは, 高齢者の声とは異なることが明らかになった. また, 話者の出身地(方言)の影響も, 年齢ほどはないが, 認識率に2%から4%程度の影響を与えていることを確認した.
1999-09-15

Voice Across Japanデータベース

スポンサーリンク

概要

著者

関連論文

スポンサーリンク