デコンボルーションによる声道形の推定と適応型音声分析システム
スポンサーリンク
概要
- 論文の詳細を見る
Disregarding the nasal tract, the vocal organ in speech production is regarded as a tube passing from lungs to the lip (see Fig. 1). From the assumption that the most remarkable loss effect appears in the glottal portion, the total vocal tract loss is represented by means of a no-loss, infinitely long, uniform acoustic tube below the glottis. The speech production process in the vocal tract can be simulated by the Kelly's ladder-form circuit, as shown in Fig. 2 (a). According to Itakura (1971) and Wakita (1972), it is shown that the partial autocorrelation coefficients k are extracted with the self-control system shown in Fig. 3 (a). Figure 2 (a) can be transformed to the equivalent circuit shown in Fig. 3 (b), neglecting the loss near the lip portion (r_0→-1). Comparing Fig. 3 (a) with Fig. 3 (b), it is clear that the k parameter extraction process corresponds formally to the inverse tracing of speceh production process. To ascertain the relation, the synthesized speech generated with a given vocal tract shape and impulse train excitation as the vocal source was analyzed. Matching partial-autocorrelation coefficients to the reflection coefficients r_i, (i=1, 2, …) from the lip side, the reflection coefficients are converted to area functions as shown in Fig. 4. From the experiments, it was concluded that the vocal tract shape can be perfectly estimated by this method, except when the vocal tract resonance is quite sharp as compared with actual speech (that is, when the loss at the glottis is extremely small). The next problem is how to separate the vocal tract impulse response from speech waves. Two hypotheses were developed for the separation. One is that, since the gross frequency transmission characteristics of the vocal tract are flat, the gross speech spectrum gradient and bending are based on the glottal wave and radiation characteristics. The second hypothesis is that the power spectrum of the glottal wave, including radiation characteristics, is smooth and has no sharp resonance. Figure 6 is a proposed inverse model of vocal cord wave (with radiation characteristics) model, including unknown parameters ε_i (i=1, …, 5)(Nakajima and Suzuki, 1976). The unkown parameters of this model are estimated from speech waves by the following technique. As an example, the parameter in the 2nd-order critical damping system corresponding to the inverse of the first stage in Fig. 6 is calculated from 1st and 2nd delayed autocorrelation coefficients of the speech wave (ref. Eq. 1〜4). When the power spectrum of sound source and radiation characteristics is expressed with this model, the vacal tract impulse response is extracted by inverse filtering of the estimated vocal cord wave model, and the gross power spectrum is assured to be flat. At this time, pole frequency and band width are not affected. The principle of this method is illustrared in Fig. 5. Experimental results on natural speech by an adult man and a child are shown in Fig. 7 and 8, respectively. In the section 5, an adaptive speech analysis system is described, which selects automatically the suitable speech analysis methods, on the basis of the decision of voiced/unvoiced/plosive sounds with the input speech wave. Vocal tract shape is estimated in case of voiced sounds. In the case of unvoiced sounds, the acoustic tube shape equivalent to the power spectrum of L. P. C. analysis is obtained. In the plosive sounds, shorter analysis window and frame interval than usual are used for the analysis. Finally, examples of analysed results are illustrated (see Fig. 10). It is shown that the system is useful for the observation of speech from both sides of power spectrum and articulatory domain, and the obtained pattern is useful for automatic speech recognition.
- 社団法人日本音響学会の論文
- 1978-03-01
著者
-
田中 和世
筑波大学
-
中島 隆之
電子技術総合研究所
-
田中 和世
電総研
-
大村 浩
電子技術総合研究所
-
鈴木 虎三
電子技術総合研究所
-
石崎 俊
電子技術総合研究所
-
田中 和世
電子技術総合研究所
-
大村 浩
電総研
-
石崎 俊
電子技術総合研究所知能情報部自然言語研究室
関連論文
- 語彙フリー音声文書検索手法における新しいサブワードモデルとサブワード音響距離の有効性の検証(音声言語)
- 曲内の類似性を用いた曲境界の検出性能の向上
- 電子技術総合研究所パターン情報部
- 音声情報処理の将来を考える
- ニュース音声コーパスの構築
- 調音と音声パワースペクトルのノモグラムの検討
- 反射係数による子音声道伝達関数の計算法
- 非定常態波形のスペクトル・モデルに基づくピッチ対同期形PSE分析法
- パワースペクトル包絡(PSE)音声分析・合成系
- 合成音声出力の最近の話題
- デコンボルーションによる声道形の推定と適応型音声分析システム
- 視覚情報を対話的に学習するマルチモーダル擬人化エージェント
- コンピュータとの対話におけるユーザの振舞いの解析
- 視覚・聴覚・発話機能を有するエージェント型マルチモーダルインタフェースの試作
- 類推における類似性と写像の相互関係に関する考察
- フレームの表示形式を用いた : IXLの意味ネットワークの表示
- テキストにおける首尾一貫性(coherence)と文脈表現構造
- 機械翻訳システムCONTRASTにおける文脈情報の利用
- 座談会 「人工知能研究の現状と問題点」
- 学習におけるアナロジー (「高次人工知能へ向けてのパラダイム」)
- 音声合成システム性能評価方法の規格
- 調音の構造的制約を考慮した音声特徴抽出の検討
- 声帯振動の非線形効果パラメータのパタン化とその評価
- 声帯振動の非線形効果パラメータのパタン化
- ホルマントと調音パラメータノモグラムを用いた音声の低ビット符号化法
- 声帯振動の非線形効果を考慮した合成音声とその評価
- 共通中間音声符号系を用いた音声認識方式
- 音声の調音符号化におけるセグメント特徴
- 調音-ホルマント・ノモグラムによる音声の調音符号化
- 声帯振動の非線形効果に基づく音声分析合成システム
- ホルマント解析における声道パラメータモデルの話者適応化
- 声帯振動の非線形効果を考慮した音声合成法とその評価
- ホルマント・ノモグラムによる音声パラメータの調音解析の検討
- 声帯振動の非線形性を考慮した音声合成法とその評価実験
- 基本波フィルタリング法による精細ピッチパターンの抽出
- 一般化声道モデルに基づく音声の規則合成システム (電子計算機相互運用デ-タベ-スシステム)
- 語彙制限のない音声文書検索における複数サブワードの統合----検索語彙に依存した検索性能推定指標の導入
- 人の表情を有し音声対話・視覚機能を備えたマルチモーダルインタフェース
- 音声・視覚・画像を統合した対話システムの試作
- 座談会 : 音声研究 (音声研究)
- 座談会「機械翻訳における中間言語方式をめぐって」 : 1989.5.26 10:00〜12:00 於:オーム社 (「機械翻訳」)
- 文脈と対象世界モデルを利用した機械翻訳へ向けて (「機械翻訳」)
- 概念の帰納的学習 (「学習と知識獲得技術の新展開」)
- 文脈理解とAI (「次世代自然言語処理技術」)
- 特集「次世代自然言語処理技術」について
- 特集「認知科学」の新潮流について
- TINLAP 3に出席して
- 助詞「から」の意味分類と判定法
- 言語に共通な音声符号系とその音響セグメントモデルの作成
- 単語発声の複数サンプルを利用した未知語の音韻系列の推定(音声情報処理 : 現状と将来技術論文特集)
- 被覆率を重視した大語彙連続音声認識用統計的言語モデル
- 人の間, ものの間のインタフェース
- WOZシステムで収録した自由発話音声の対話データベース
- 音声認識用統計的言語モデルのための形態素解析済みテキストの後処理
- ノンバーバル情報を導入した音声・画像統合対話システムでの初期データ収録
- ノンバーバル情報を導入した音声・画像統合対話システムの設計
- 複数サンプルを用いた未知語の音韻系列の推定
- 複数サンプルを用いた未知語認識
- RWC計画における音声対話データベースの構築
- 休止を単位とした漸進的対話処理
- 対話システム制御における時間の扱い
- AR-HMM 分解法とその音源分離への応用
- AR過程とHMMを組み合わせた音声波形モデリングとその同定法
- EA2000-40 HMMによる音源のモデリングと高基本周波数に頑健な声道特性抽出法
- 比較構造の概念表現について
- 文脈情報翻駅システムCONTRAST (自然言語理解)
- 未定義語を含む文の多段階構文解析
- 日本語新聞記事解析における構文情報および意味情報の抽出法
- 文脈処理技術 (計算言語学)
- マン・マシン対話データのピッチパターン分類に関する検討
- 単語アクセントパターン識別におけるモーラ単位HMMの語彙独立性の評価と検討
- 言語混合単語音声認識に関する実験的検討
- 区分線形セグメントラティスにおける音韻的チャンクの抽出
- 中間符号系と記号列間距離計算に基づく音声処理の提案
- 区分線形セグメントラティス音韻モデルにおけるクラスタリング
- 記号領域における単語間距離の計算と音声認識難易度
- 音声・視覚・画像をもつインタラクションシステム
- 文脈理解のための拡張シソーラス知識表現法
- 意味・言語・対話 (自然言語処理の新しいパラダイム)
- 区分線形セグメント列からの音素的構造の抽出
- 音声スペクトルからの識別的特徴抽出に関する実験的検討
- 音韻モデル獲得のための区分線形セグメントラティスの学習
- 時間の扱いを考慮した対話システム制御手法
- 区分線形セグメントラティスを用いた単語モデルの自動生成
- マンマシン対話における言語表現の多様性の解析
- 日本語50音合成のプログラミング・システムについて
- 声帯振動による非線形性を考慮した振幅制御型音声合成方式
- MF143 表情筋および頸部の筋電位信号を利用した日本語母音の識別(MF14 情報・コミュニケーション支援,あたり前のことを知る)
- 学習 : 人工知能の基礎
- 日本語/r/の音響的特徴
- 電総研の研究用音声データベース (<小特集>出揃った音声データベース)
- 休止を区切りとした対話処理
- 日本語テキスト音声合成用記号の標準化
- 音声中の検索語検出における事前検索・HMM状態系列照合・リランキングの適用
- 音節N-gramの事前検索結果を利用した音声中の検索語検出の高速化方式
- 隠れマルコフモデルによる自動和音認識を用いたカバー演奏ストリームからの楽曲同定手法の検討(持続可能な社会に貢献するパターン認識)
- 隠れマルコフモデルによる自動和音認識を用いたカバー演奏ストリームからの楽曲同定手法の検討(持続可能な社会に貢献するパターン認識)
- 音声中の検索語検出における音素トライグラム照合による高速抽出法(ポスターセッション)
- 類似音節バイグラムリストを用いた音声中の検出語検出
- 類似音節バイグラムリストを用いた音声中の検出語検出