辞書と音形規則を利用した単語音声の認識
スポンサーリンク
概要
- 論文の詳細を見る
Speech is not merely a physical phenomenon but also one of the forms to express the linguistic event. Therfore it is natural and necessary for the automatic speech recognition to take into account the linguistic aspect of speech. Linguistic information will be given by the meaning, the grammer, the dictionary, the connecting rule of phonological units and so on. Former two have not yet been studied enough and so they can not be utilized for the automatic speech recognition. So, it seems reasonable to limit our present object of study to the automatic recognition of spoken words. From this standpoint, the authors have carried out the study on automatic spoken word recognition system which utilized some of the linguistic rules and the dictionary as shown if Figs. 3 and 4. Speech signal is digitally filtered into four frequency bands at each 10 m. s. These bands have been determined considering formants of vowels or nasals and noise components of consonants. The logarithm of the variance of output of the band M_1, and LT, M_1L etc. in Fig. 1 are used as parameters, which are them transformed into distinctive features. Let X^k_i={X^k_(ir)}^9_(r=1) denote the parameters obtained at each 10 m. s. which should be categorized as the feature plus(k=+) or minus(k=-), where i indicates the material number(i=1〜n)and r represents each of nine parameters. Nine distinctive features are represented by the linear combinations of these parameters such as F(X^k_i)=?^9_(r=1)C_rX^k_(ir). These coefficients are determined so as to maximize the ratio of the variance between two classes {F(X^+_i)} and {F(X^-_i)} to the sum of variances within each class. Phonemes are classified into two groups according to the sign of nine distinctive features as shown in Tab. 1. Average error rate of feature extraction is 10. 5% with 13 words (7 seconds of speech) spoken by a male talker. The series of values of nine distinctive features is segmented primarily with reference to a certain amount of change in feature value, and secoundly, they are segmented by applying the rules which depend of the result of primary segmentation, context, duration of the segment and phoneme connection rules. The input feature matrix is made from the representative features of each segment. On the other hand, an item of the dictionary of 54 words which is represented as a series of phonemes is transformed into a series of features, which then is transformed into a standard feature matrix by applying the phonological rule such as the devocalization. The distance between input and standard feature matrices is calculated for each item of the dictionary and the item of minimum distance from the input is taken as a recognized output(see Fig. 3). According to our experiments, the recognition rate is 42. 0% only with the segmentation rule, 59. 5% with segmentation and phoneme connection rule and 92. 3% with the dictionary in addition to those rules for 13 words spoken by a male talker. 79. 2% of 53 words spoken by the same talker are recognized correctly. Next, we examined the performance of the recognition system equipped with a duration dictionary which contains the typical duration of phonemes in each word(see Fig. 4). The segmentation is performed according to the item of the duration dictionary;the item of minimum distance from the input feature matrix is taken as a recognized output. 92. 3% of 52 words uttered by the same talker(as the one mentioned above)for the standard duration is recognized correctly. Average recognition rate of 10 words spoken by each of another nine male talkers is 70. 0%. The effectiveness of utilization of a word dictionary and some of the linguistic rules to the automatic spoken word recognition is made clear.
- 社団法人日本音響学会の論文
- 1971-09-10
著者
関連論文
- 363 名鉄ホールの1/25立体模型による音響試験 : 特に可動反射板の影響について(計画・設備)
- インターノイズ76
- 簡単な振幅制限素子をもつ防振機構について
- 3022 中電ホールの電気音響装置(環境工学・設計計画,第1回 日本建築祭 研究発表会 学術講演要旨集)
- 3021 中電ホールの音響特性(環境工学・設計計画,第1回 日本建築祭 研究発表会 学術講演要旨集)
- 3020 中電ホールの立体模型による音響試験(環境工学・設計計画,第1回 日本建築祭 研究発表会 学術講演要旨集)
- 室内における音質の主観的評価に関する実験 : その1.音場の合成と残響音の時間遅れの効果
- 3058 仙台日立ミュージックホールの音響特性と音響装置(計画)
- 3053 CBCラジオ第一スタジオの音響模型1/12.5実験(計画)
- 3040 札幌市民会館の音響特性について(計画)
- 3013 三つのオーデイトリアムの音響特性測定結果について(計画・設備)
- 15. 杉並公会堂の1/25立体模型による音響試験
- 12. 材料の吸音率測定結果について
- 365 材料の吸音率測定結果について(計画・設備)
- 364 杉並公会堂の1/25立体模型による音響試験 : 特に開閉反射板の効果について(計画・設備)
- 324 中部日本放送ホールの1/25模型による音響実験(計画)
- 10 福島県会議事堂の音響特性(その二) : II 仮縫実験及び完成後の音響特性
- 9 福島県会議事堂の音響特性(その一) : I 音響計画、モデル実験、音響設計
- 室の音響特性の測定装置
- 紙の弾性常数に関する模型的考察
- 円錐型動電拡声器の研究正誤表
- 円錐型動電拡声器の研究
- 円錐型拡声器の研究(總括)
- 65.中部電力ホールの音響特性(第4部(基本計画,設計々画,設備関係))
- 64.中電ホールの音響装置(第4部(基本計画,設計々画,設備関係))
- 63.中電ホールの立体模型による音響試験(第4部(基本計画,設計々画,設備関係))
- 音声言語コーパスの現状と課題
- 多次元尺度構成法を用いた複数音声コーパスの特徴可視化(言語とコーパス,思考と言語一般)
- ホルマント周波数の聴覚心理的記述と母音認識
- 多言語音声処理に向けた音声資源の現状と課題
- 音声コーパスとローマ街道(音叉)
- 短音によるLoud speakerの特性測定について
- Cone紙の振動定数に関する一考察
- ベンガル語連続音声中の母音のホルマント周波数について
- ベンガル語単母音のホルトマント周波数
- 曲線配列音源の一設計法とその近傍音場音圧分布
- 直線配列音源の近傍音場特性
- 球上の多重音源による定音圧音場の構成
- ホルマント軌跡の自動追跡とその2次系モデルによる記述
- 辞書と音形規則を利用した単語音声の認識
- 単語音声のセグメンテーションに関する一考察
- 単語中の幾つかの子音の辞書による識別
- 音声研究の現状と将来を語る
- 鼻音のスペクトルに及ぼす鼻副鼻腔の影響
- スペクトルのピークを用いた単語音声の認識とその評価
- 音声スペクトルのローカルピークの動特性の検討と単語音声認識への利用 : スペクトルのローカルピークを用いた単語音声中の音韻情報の抽出(その2)
- 9次元ベクトルによる音素群の表現とその音声認識への利用
- 時間的に変動するホルマント周波数で表される母音刺激音の知覚
- 音声スペクトルのローカルピークの静特性のもつ音韻情報に関する検討 : スペクトルのローカルピークを用いた単語音声中の音韻情報の抽出 (その1)
- 母音知覚における音素環境の影響
- 鼻子音のスペクトル特徴の抽出のための一方法
- 年令, 性別による日本語5母音のピッチ周波数とホルマント周波数の変化
- 鼻音性の音響関連量について
- 両唇音/b,w,m/の知覚のキューとしての調音の性質
- 鼻音性抽出のための能動モデルとその知覚的評価
- 音声スペクトルの概略形とその動特性を利用した単語音声認識システム
- 電気計算機による室内音響設計法に関する二, 三の基礎的考察
- C4.日本語母語話者における語頭の無声破擦音と無声摩擦音の生成範疇境界の変数(研究発表,音声学会2009年度(第23回)全国大会発表要旨)
- C1. 音声コーパスの活用 : NII音声資源コンソーシアムの設立(研究発表,日本音声学会2007年度(第21回)全国大会発表要旨)
- 母音知覚の性質を利用した母音認識の方法
- VCV音節中の母音知覚における文脈効果
- 母音の短期記憶の保持曲線