音声スペクトルのローカルピークの動特性の検討と単語音声認識への利用 : スペクトルのローカルピークを用いた単語音声中の音韻情報の抽出(その2)
- 論文の詳細を見る
A spoken-word recognition system composed of the following three steps has been in this research. That is, the first step is the extraction of the acoustic parameters, the second is the transformation of the acoustic parameters into a string of features, and the third is the transformation of the string of the features into a string of characters or some symbols which represents a word or short sentence. The use of the linguistic information is considered to be effective on the third step. On the first two steps, the local peaks in the short time spectra analyzed by a filter bank composed of 29 single peak filters of low selectivity are treated as the acoustic parameters. And some experiments on vowel samples uttered in isolation and in continuation by 31 male adults were carried out to investigate the effectiveness of the use of the local peaks. The usefulness of the local peaks for the recognition was proved by experiments. And the discrimination experiments on vowels and consonants in Japanese 20 city names uttered by 5 male adults by use of the static properties of the spectral local peaks were carried out. The scores of the discrimination were more than 80% expect for voiced stops (47%) and for some phonemes described in this paper. For the semivowels, liquid, unvoiced fricative/h/, stop consonants and choked sound, the dynamic property has an important part for the transformation of the speech segments into the phonemic symbols. Then, the discrimination experiments on the phonemes by use of the changes in local peaks and the variation in the total power of speech segments with time have been carried out as described in this paper. The speech samples are frequency-analyzed by a filter bank composed of 29 single peak filters as Q≒6. The center frequencies of the filters are every 1/6 octave from 250 Hz to 6300 Hz. Three major spectral local peaks, P1, P2 and Pe3 are picked up in every 10 ms from the six largest local peaks of the frequency spectrum obtained by analysis with the filter bank by applying two-peak processing rules. The phonemes were discriminated use of the changes in these local peaks and the variation in the total power of speech segments with time. From the speech samples of 20 city names uttered by 5 male adults, the standard patterns for the discrimination of phonemes were made. The scores of the discriminations of phonemes in the speech samples were as follows; /w/:65%, /j/:80%, /r/:68%, /h/:60% (in the initial position of words) and 87% (in the other position of words), /p, t, k/:97% and /Q/:100%. By using the above-mentioned standard patterns, a discrimination experiment was carried out with other 146 city names and the following scores were obtained; /w/:42%, /j/:71%, /r/:74% and /h/:27% (in the initial position of words) and 88%(in the other position of words). These results give us the expectation for the effectiveness of this method of feature extraction and the transformation into the phonemic symbols in the speech recognition system. And some recognition experiments were carried out. The 20 city names from which the standard patterns were made were used for the first time, and 96% of 100 samples were correctly recognized. The 20 city names uttered by other 3 male adults were used for the second experiment, and 86% of 60 samples were correctly recognized. The recognition score is considered to be increased by the improvement in the linguistic processing in the recognition system.
- 社団法人日本音響学会の論文
- 1977-01-01
- 363 名鉄ホールの1/25立体模型による音響試験 : 特に可動反射板の影響について(計画・設備)
- インターノイズ76
- 簡単な振幅制限素子をもつ防振機構について
- 3022 中電ホールの電気音響装置(環境工学・設計計画,第1回 日本建築祭 研究発表会 学術講演要旨集)
- 3021 中電ホールの音響特性(環境工学・設計計画,第1回 日本建築祭 研究発表会 学術講演要旨集)
- 3020 中電ホールの立体模型による音響試験(環境工学・設計計画,第1回 日本建築祭 研究発表会 学術講演要旨集)
- 室内における音質の主観的評価に関する実験 : その1.音場の合成と残響音の時間遅れの効果
- 3058 仙台日立ミュージックホールの音響特性と音響装置(計画)
- 3053 CBCラジオ第一スタジオの音響模型1/12.5実験(計画)
- 3040 札幌市民会館の音響特性について(計画)
- 3013 三つのオーデイトリアムの音響特性測定結果について(計画・設備)
- 15. 杉並公会堂の1/25立体模型による音響試験
- 12. 材料の吸音率測定結果について
- 365 材料の吸音率測定結果について(計画・設備)
- 364 杉並公会堂の1/25立体模型による音響試験 : 特に開閉反射板の効果について(計画・設備)
- 324 中部日本放送ホールの1/25模型による音響実験(計画)
- 10 福島県会議事堂の音響特性(その二) : II 仮縫実験及び完成後の音響特性
- 9 福島県会議事堂の音響特性(その一) : I 音響計画、モデル実験、音響設計
- 室の音響特性の測定装置
- 紙の弾性常数に関する模型的考察
- 円錐型動電拡声器の研究正誤表
- 円錐型動電拡声器の研究
- 円錐型拡声器の研究(總括)
- 65.中部電力ホールの音響特性(第4部(基本計画,設計々画,設備関係))
- 64.中電ホールの音響装置(第4部(基本計画,設計々画,設備関係))
- 63.中電ホールの立体模型による音響試験(第4部(基本計画,設計々画,設備関係))
- ホルマント周波数の聴覚心理的記述と母音認識
- 短音によるLoud speakerの特性測定について
- Cone紙の振動定数に関する一考察
- ベンガル語連続音声中の母音のホルマント周波数について
- ベンガル語単母音のホルトマント周波数
- 曲線配列音源の一設計法とその近傍音場音圧分布
- 直線配列音源の近傍音場特性
- 球上の多重音源による定音圧音場の構成
- 辞書と音形規則を利用した単語音声の認識
- 音声研究の現状と将来を語る
- 鼻音のスペクトルに及ぼす鼻副鼻腔の影響
- スペクトルのピークを用いた単語音声の認識とその評価
- 音声スペクトルのローカルピークの動特性の検討と単語音声認識への利用 : スペクトルのローカルピークを用いた単語音声中の音韻情報の抽出(その2)
- 9次元ベクトルによる音素群の表現とその音声認識への利用
- 時間的に変動するホルマント周波数で表される母音刺激音の知覚
- 音声スペクトルのローカルピークの静特性のもつ音韻情報に関する検討 : スペクトルのローカルピークを用いた単語音声中の音韻情報の抽出 (その1)
- 母音知覚における音素環境の影響
- 鼻子音のスペクトル特徴の抽出のための一方法
- 年令, 性別による日本語5母音のピッチ周波数とホルマント周波数の変化
- 鼻音性の音響関連量について
- 両唇音/b,w,m/の知覚のキューとしての調音の性質
- 鼻音性抽出のための能動モデルとその知覚的評価
- 音声スペクトルの概略形とその動特性を利用した単語音声認識システム
- 電気計算機による室内音響設計法に関する二, 三の基礎的考察
- 母音知覚の性質を利用した母音認識の方法
- VCV音節中の母音知覚における文脈効果
- 母音の短期記憶の保持曲線