Voice Across Japanデータベース
スポンサーリンク
概要
- 論文の詳細を見る
90年代に入り音声認識の研究はフィールド実験がさかんに行われるようになり, 中でも, 電話回線を通したアプリケーションは大規模なシステムが開発されるにいたっている. その結果として, 話者の個人差により認識率に大きなちがいがあることは分かっていたが, どのような原因がどの程度, 認識率に影響を与えているのかは不明瞭であった. 本論文では, 電話回線を通じて大規模な話者数を要する音声データベース(VAJデータベース)を構築し, それにより話者の年齢や出身地が音声認識にどのような影響を与えるのかを分析するものである. まず, 日本全国から電話回線を通して, 8,866人の音声データを収録した. 話者の選定には性別, 年齢, 出身地に関してできる限り日本の人口比に近い比率でサンプリングを行った. このデータベースを用いて, Hidden Markov Model(HMM)をトレーニングして, 学習に用いていないデータで評価した結果, 年齢が音声認識に最も強く影響を与えていることが明らかになった. 20代, 30代, 40代の声は比較的よく似ているが, 10代, あるいは, 高齢者の声とは異なることが明らかになった. また, 話者の出身地(方言)の影響も, 年齢ほどはないが, 認識率に2%から4%程度の影響を与えていることを確認した.
- 1999-09-15
著者
-
中間 崇夫
株式会社テキサスインスツルメンツ筑波研究開発センター
-
工藤 育男
株式会社テキサスインスツルメンツ筑波研究開発センター
-
工藤 育男
株式会社テキサスインスツルメンツ筑波研究開発センター:(現)ジャストシステム
関連論文
- 特集「マルチメディア社会をめぐる法律問題 : 知的財産権を中心として」の編集にあたって
- Voice Across Japanデータベース
- Voice Across Japan(VAJ)プロジェクトにおける音声データの収録について
- コーパスに基づく共起知識の獲得とその応用 ( 「コーパスに基づく音声・自然言語処理」)