音声スペクトルの概略形とその動特性を利用した単語音声認識システム
スポンサーリンク
概要
- 論文の詳細を見る
This paper describes on the outline and the perfomance of the newly developed spoken word recognition system. In the system, the spectral local peaks and the gross parameters of speech spectrum are utilized for the phoneme recognition, and the word dictionary written in phonemic symbols is used for the last step of the word recognition. The uses of the spectral local peaks and the word dictionary are based on the previously proposed ideas [1] and experiments [2], and the use of the gross parameters of spectrum is newly added for improving the segmentation and the phoneme recognition. The schematic diagram of the system is shown in Fig. 1. The input spoken word is, first, frequencyanalyzed by the 29 channel filter bank composed of single tuned filters of Q=6, of which the center frequencies are arranged every 1/6 octave from 250Hz to 6300Hz. A least squares fit line is computed from the logarithmic analyzed spectrum every 10 ms. Then the modified spectrum is computed, which is the difference between the analyzed spectrum and the fit line. By using the fit line, the difference in the slope of speech spectrum caused by the individuality of speakers can be neglected. From the modified speech spectrum, three major local peaks are extracted, and the newly defined acoustical parameters V, G and H are computed, which express the gross pattern of the spectrum. The power W is also computed from the original analysed spectrum. The smoothed parameters of W, V, G and H are named W_s, V_s, G_s and H_s. Consonant segments are extracted by using the dynamic characteristics of V_s, W_s and V from speech. In the consonant segments, consonants or consonant groups are recognized by using the peaks and the power. Nasal is recognized by using the peaks independent of the consonant segments. Semivowels are recognized by using the dynamic characteristic of G_s, and H_s, and the peaks. If some phonemes are recognized in the same segment, only one phoneme is recognized according to priority. Vowels are recognized in the remaining segments by using the peaks. Fig. 4 shows an example of phoneme recognition. The phonemic sequence is constructed from the results of the phoneme recongnition. Some errors in the sequence are corrected by using the phoneme connecting rules. The similarity of the phonemic sequence to every items of the word dictionary in the system is computed by considering the probabilities of the additions, the omissions and erroneous phonemes with the algorithm of the dynamic programming. The item of the dictionary having maximum similarity to the sequences is chosen as the output of the word recognition. Some recognition experiments were carried out with the system. In the experiments, one item of the word dictionary corresponded to one word, and was written in the orthographical form which was easily converted from Japanese Kana letters by some rules. Table 4 shows the scores in the experiments. The score of the word recognition was found to be 83. 2% for 166 city names uttered by 15 male speakers. In the experiments using small number of words, the scores were found to be 93. 6% and 96. 3% for 51 and 20 city names, respectively.
- 社団法人日本音響学会の論文
- 1978-03-01
著者
関連論文
- ユビキタス環境における漢字教育支援システムの評価(ユビキタス・モバイル学習環境/一般)
- 363 名鉄ホールの1/25立体模型による音響試験 : 特に可動反射板の影響について(計画・設備)
- モルフォロジーによるピッチ変動の平滑化(聴覚,音声,言語とその障害)
- モルフォロジー処理によるピッチ変動の平滑化
- モルフォロジーを用いた連続音声のピッチ抽出
- モルフォロジーによるピッチ検出の検討
- インターノイズ76
- 簡単な振幅制限素子をもつ防振機構について
- 3022 中電ホールの電気音響装置(環境工学・設計計画,第1回 日本建築祭 研究発表会 学術講演要旨集)
- 3021 中電ホールの音響特性(環境工学・設計計画,第1回 日本建築祭 研究発表会 学術講演要旨集)
- 3020 中電ホールの立体模型による音響試験(環境工学・設計計画,第1回 日本建築祭 研究発表会 学術講演要旨集)
- 室内における音質の主観的評価に関する実験 : その1.音場の合成と残響音の時間遅れの効果
- 3058 仙台日立ミュージックホールの音響特性と音響装置(計画)
- 3053 CBCラジオ第一スタジオの音響模型1/12.5実験(計画)
- 3040 札幌市民会館の音響特性について(計画)
- 3013 三つのオーデイトリアムの音響特性測定結果について(計画・設備)
- 15. 杉並公会堂の1/25立体模型による音響試験
- 12. 材料の吸音率測定結果について
- 365 材料の吸音率測定結果について(計画・設備)
- 364 杉並公会堂の1/25立体模型による音響試験 : 特に開閉反射板の効果について(計画・設備)
- 324 中部日本放送ホールの1/25模型による音響実験(計画)
- 10 福島県会議事堂の音響特性(その二) : II 仮縫実験及び完成後の音響特性
- 9 福島県会議事堂の音響特性(その一) : I 音響計画、モデル実験、音響設計
- 室の音響特性の測定装置
- 紙の弾性常数に関する模型的考察
- 円錐型動電拡声器の研究正誤表
- ディジタル世代のためのアニメーションを用いた連合型漢字学習支援システム(インタフェース技術と学習支援システム/一般)
- Web ベース発音評価システムにおける高度音声入力インタフェース
- 電子メールとWeb技術を用いた公衆型音声分析システム
- 日本語音声教育のための日本語アクセント型判定法
- オンデマンド・ネットワーク型日本語アクセント音声教育システム
- 円錐型動電拡声器の研究
- 円錐型拡声器の研究(總括)
- 65.中部電力ホールの音響特性(第4部(基本計画,設計々画,設備関係))
- 64.中電ホールの音響装置(第4部(基本計画,設計々画,設備関係))
- 63.中電ホールの立体模型による音響試験(第4部(基本計画,設計々画,設備関係))
- 音声教育のための声道形の動的3次元表示法
- 音声教育のための声道形の動的3次元表示法
- 音声認識とマルチメディア技術を統合した日本語音声教育システム
- 音声教育のための3次元声道形状の対話型表現
- 現代日本語方言音声の音響分析 (<小特集>声質:音声言語の多様性に迫る)
- パソコンを用いた日本語方言音声分析システム
- 連続音声中の日本語特殊拍のWeb型発音評価システム(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 連続音声中の日本語特殊拍のWeb型発音評価システム(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 連続音声中の日本語特殊拍のWeb型発音評価システム(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 中国語発音教育のための有気音と無気音の識別とスコアリング
- 発音学習のための事後確率に基づくスコアリング法の検討
- 独習型中国語聞き取り訓練システムとその評価
- 中国語音声教育のための有気/無気音の自動識別について
- 音声教育のための中国語有気無気音の識別
- 音声教育のための中国語有気無気音の識別
- オンデマンド・ネットワーク型日本語音声教育システムの構築
- 音声言語教育のための調音音響変換A-b-S法を用いた声道形の推定
- 音声言語教育のための調音音響変換A-b-S法を用いた声道形の推定
- 調音-音響変換を用いた9次元声道形状の推定
- ホルマント周波数の聴覚心理的記述と母音認識
- 第二言語習得のための日本語特殊拍の発音自動評価システムとその検討
- 日本語特殊モーラ長の習得システム
- インターネット・マルチプラットホーム対応の対話型音声分析システム
- A-b-S法を用いた口蓋裂患者音声の極零周波数の推定
- 岩手大学におけるインターネット構築の歴史とインターネット利用教育支援システムの現状
- 単語予備選択と状態継続時間長制御HMMを用いた大語彙単語音声認識
- 短音によるLoud speakerの特性測定について
- Cone紙の振動定数に関する一考察
- ベンガル語連続音声中の母音のホルマント周波数について
- ベンガル語単母音のホルトマント周波数
- 調音音響変換A-b-S法を用いたVCV音声の動的声道形推定
- セッション管理による参加者状況表示機能を備えたチャットシステム
- パソコンを用いた初心者熟練者用対話型音声分析システム
- GPIBを用いたワ-クステ-ションとパソコンの計算機資源の共有化システム
- パソコン用拡張OSファンクションの標準化
- 曲線配列音源の一設計法とその近傍音場音圧分布
- 直線配列音源の近傍音場特性
- 球上の多重音源による定音圧音場の構成
- パーソナルコンピュータを用いた初心者用対話型音声分析システム
- FFTに基づくBPFを用いた韓国語数字認識
- e-Learningにおける統合型協調学習支援システム(e-LearningとFD支援/一般)
- キーワード検索機能を有する講義映像の部分視聴支援システム(e-LearningとFD支援/一般)
- Web対応型音声合成システムとその応用
- ユビキタス社会における先進的マルチメディア処理を用いた統合型キャンパスシステム
- e-Learning における Excel ベースの試験データ管理支援システム
- 辞書と音形規則を利用した単語音声の認識
- 音声研究の現状と将来を語る
- 鼻音のスペクトルに及ぼす鼻副鼻腔の影響
- スペクトルのピークを用いた単語音声の認識とその評価
- 音声スペクトルのローカルピークの動特性の検討と単語音声認識への利用 : スペクトルのローカルピークを用いた単語音声中の音韻情報の抽出(その2)
- 9次元ベクトルによる音素群の表現とその音声認識への利用
- 時間的に変動するホルマント周波数で表される母音刺激音の知覚
- 音声スペクトルのローカルピークの静特性のもつ音韻情報に関する検討 : スペクトルのローカルピークを用いた単語音声中の音韻情報の抽出 (その1)
- 母音知覚における音素環境の影響
- 鼻子音のスペクトル特徴の抽出のための一方法
- 年令, 性別による日本語5母音のピッチ周波数とホルマント周波数の変化
- 鼻音性の音響関連量について
- 両唇音/b,w,m/の知覚のキューとしての調音の性質
- 鼻音性抽出のための能動モデルとその知覚的評価
- 音声スペクトルの概略形とその動特性を利用した単語音声認識システム
- 電気計算機による室内音響設計法に関する二, 三の基礎的考察
- 母音知覚の性質を利用した母音認識の方法
- VCV音節中の母音知覚における文脈効果
- 母音の短期記憶の保持曲線