音声合成のためのテンプレートを用いた録音文セット生成システムとラジオ番組「気象通報」への適用について
スポンサーリンク
概要
- 論文の詳細を見る
The design method of a sentence set for a speech-synthesis database strongly influences the quality of the synthesized speech. To minimize the costs associated with making the speech recordings and constructing the speech database, the number of the sentence set should be limited. However, if a sentence set does not include sufficient data, the quality of the synthesized speech can be inadequate. In this paper, we propose a method for generating a sentence set from templates. When applied to the templates in the "Weather Report" radio program, the proposed method reduced the number of the sentence set to less than several percent of that required by a comparison method. In addition, the mean opinion score of speech samples synthesized using the proposed method was 4.32 on a five-point scale.
- 2011-01-01
著者
-
都木 徹
NHK放送技術研究所
-
斎藤 英雄
慶應義塾大学 大学院理工学研究科
-
斎藤 英雄
慶應義塾大学 理工学部 情報工学科
-
斎藤 英雄
慶應義塾大学大学院 理工学研究科
-
斎藤 英雄
慶應義塾大学
-
斉藤 英雄
慶應義塾大学理工学部情報工学科
-
斎藤 英雄
慶應義塾大学理工学部
-
世木 寛之
NHK放送技術研究所(人間・情報)
-
田高 礼子
NHK放送技術研究所(人間・情報)
-
小澤 愼治
愛知工科大学
-
清山 信正
財団法人NHKエンジニアリングサービス
-
小澤 愼治
愛知工科大学 大学院工学研究科 情報メディア
-
世木 寛之
Nhk放送技術研究所 (人間・情報科学)
-
斎藤 英雄
慶応義塾大学理工学部情報工学科
-
田高 礼子
Nhk放送技術研究所 (人間・情報科学)
-
世木 寛之
Nhk放送技術研究所
-
田高 礼子
Nhk放送技術研究所
関連論文
- 単語誤り最小化に基づく識別的リスコアリングによるニュース音声認識(音声,聴覚)
- 2-4 多視点映像処理技術を利用したARシステム(2.超高精細映像技術・立体映像技術,超臨場感コミュニケーションの近未来像)
- 交差点マーク付き地図と交差点データベースを用いた地理データマッチングに基づくGISデータのAR提示システム
- フリーハンド撮影された多視点スナップショットからの顔形状復元
- 水滴に起因したグレアの除去法
- 個人識別に向けた顔表情変化の動的解析(インタラクティブシステム・画像入力デバイス・方式,及び一般)
- 母国語での研究会の意義
- スポーツ多視点画像からの視点補間技術を用いた立体視画像生成(立体映像技術一般)
- 二次元アレイアンテナを用いるレスキューレーダ
- 屋外での注釈情報表示の為のパノラマデータベースからの局所特徴に基づく画像検索による自己位置方向推定手法(複合現実感,仮想都市,及び一般)
- 二次元アレイアンテナを用いるレスキューレーダ (特集 レスキューロボット--災害救助支援システムの現状と今後)
- ラウドネスレベルを指標とした音声ミクシングバランスに関する研究(音声,聴覚)
- ラウドネスを指標とした音声ミキシングバランスに関する調査(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- コンピュータビジョンとVR : OpenCV が拓く新たなVR
- レーザプラズマ式3Dディスプレイにおける点列を用いた物体表現
- パンチルトカメラにより自動追跡撮影された顔画像列からの3次元顔形状復元(卒論セッション・概要発表)
- D-12-48 解剖学的データベースを用いたパンチルトカメラ画像群からの3次元顔形状復元(D-12. パターン認識・メディア理解,一般セッション)
- 走行車両ナンバープレート画像のブレ補正
- ダイレクト方式とリスピーク方式の音声認識を併用したリアルタイム字幕制作システム
- 単語誤り最小化に基づく識別的リスコアリングによる音声認識(ポスターセッション,第10回音声言語シンポジウム)
- 探索空間のエントロピーに基づく特徴量ストリームの動的な統合(音声認識・識別,第9回音声言語シンポジウム)
- 可変長サブワードHMMに基づく未知語処理を導入した音声認識(第8回音声言語シンポジウム)
- 可変長サブワードHMMに基づく未知語処理を導入した音声認識(Session-6 音声認識,第8回音声言語シンポジウム)
- 局所特徴の空間的分布に基づいたCoarse to Fineな物体検出手法(テーマセッション関連,一般物体認識・画像特徴量)
- 時間・空間的にまばらな多視点画像を用いた個人識別のための動的な見え方学習法
- 単眼カメラを用いた車両の実時間蛇行検出手法
- 画像クエリによる情報検索システム構築のための階層型オブジェクトカテゴリ認識手法
- 招待講演
- 総括
- ISMAR2008報告 : 複合現実感研究の最新動向(複合現実感のためのパターン認識・理解)
- 単語誤り最小化に基づく識別的リスコアリングによるニュース音声認識
- 高品質な株価音声合成装置の開発とデジタルラジオ放送での試験運用(放送現業・コンテンツ制作)
- 話速変換機能を搭載したラジオ,テレビの開発(音響信号及び音声処理,エンハンスメント/一般)
- コンテンツ活用のための報道番組自動書き起こしシステム
- 単語誤り最小化に基づく識別的リスコアリングによる音声認識(ポスターセッション,第10回音声言語シンポジウム)
- 単語誤り最小化に基づく識別的リスコアリングによる音声認識(ポスターセッション,第10回音声言語シンポジウム)
- 探索空間のエントロピーに基づく特徴量ストリームの動的な統合(音声認識・識別,第9回音声言語シンポジウム)
- 探索空間のエントロピーに基づく特徴量ストリームの動的な統合(音声認識・識別,第9回音声言語シンポジウム)
- 可変長サブワードHMMに基づく未知語処理を導入した音声認識(Session-6 音声認識,第8回音声言語シンポジウム)
- 高齢者にも聞きやすい放送番組の音量バランス客観評価技術 : 聴取音量の影響による高齢者が知覚する放送番組背景音の大きさについて
- ニュース番組の収録音声を利用した波形接続型音声合成システム
- 音声認識を利用した放送用ニュース字幕制作システム
- 韻律の視覚化及び矯正音声を用いた中国語学習システム(教育学習支援システム, システム開発論文)
- 韻律の視覚化および矯正音声を用いた中国語学習システム 教育テレビ「中国語会話」用発音練習ソフト (音響信号処理 特集号)
- 8-6 中国語会話発声練習用ツール"声調弍号"の開発
- 高品質リアルタイム話速変換システムの開発
- ニュース音声を対象にした時間遅れを蓄積しない適応形話速変換方式
- リアルタイム話速変換装置とその応用 : デモンストレーション
- リアルタイム話速変換装置とその応用 : デモンストレーション
- 複数の窓幅から得られた自己相関関数を用いる音声基本周期抽出法
- 放送用VTRの可変速度再生用音声付加方式の検討
- 単語知覚における話者映像と時間伸長音声のずれの検知限および許容限
- 2.高品質音声合成・音声加工の技術(情報通信技術と著作権・人格権(肖像権))
- 高品質音声合成・音声加工の技術
- ラウドネスを指標とした高齢者が知覚する放送番組背景音の大きさについて
- 別話者音素による部分置換音声の自然性とスペクトル特徴量について(聴覚・音声・言語とその障害,一般)
- ラウドネスを指標とした音声ミキシングバランスに関する調査(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- ラウドネスを指標とした音声ミキシングバランスに関する調査(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 高齢者の聴覚補助機能を搭載したラジオおよびテレビ受信機の開発 (音の聴こえと認知 特集号)
- 類似文節の韻律パターンを直接引用する際の時間長補正手法の検討
- 話速変換技術を利用したインタネットでのラジオニュースサービス(放送現業・コンテンツ制作)
- 話速変換技術を利用したインターネットでのラジオニュースサービス (音響信号処理 特集号)
- 実用化されている情報バリアフリー技術(人にやさしい放送,人にやさしい映像情報メディア)
- 「きき楽」テレビ/ラジオのしくみ--"ゆっくり機能"って? (特集 生活をより楽しくする音の技術)
- 高品質な音声合成 ('04〔NHK〕技研公開 講演・研究発表 特集号(2))
- リアルタイムニュース字幕修正作業のための音声認識誤り自動検出法(ヒューマンインフォメーション)
- 可変長の音素環境依存音素列を単位とする波形接続型音声合成(合成, 韻律, 生成, 一般)
- ニュース番組の収録音声を利用した高品質な音声合成のための素片選択法(聴覚・音声/一般)
- 聴取補助機能を備えたラジオの開発(福祉と言語処理, 一般)
- 聴取補助機能を備えたラジオの開発(福祉と言語処理,一般)
- 聴取補助機能を備えたラジオの開発(福祉と言語処理, 一般)
- 音声合成のためのテンプレートを用いた録音文セット生成システムとラジオ番組「気象通報」への適用について
- 9-2 音声認識自動字幕化システムにおける修正支援方法 : 色付けによる誤り候補の呈示効果
- 8-7 映像の可変速度再生に同期した聞きやすい音声の再生システム
- 高齢者や障害者にも優しい放送をめざして(特集 高齢者や障害者を支える情報技術-社会の側に眼を向けて-)
- 話速変換に伴う時間伸張のリアルタイム吸収法
- リアルタイム話速変換型受聴システム
- 音声合成
- リアルタイム音声処理のための複数窓幅による逐次ピッチ抽出法
- ピッチ同期音声処理のためのピッチ区間自動区分化の一手法
- 複素ケプストラム分析合成によるピッチ変換法
- 音声/非音声区間切替による背景音抑圧処理法の検討(オーガナイズドセッション「人にやさしい音声情報処理」,福祉と音声処理,一般)
- 音声/非音声区間切替による背景音抑圧処理法の検討(オーガナイズドセッション「人にやさしい音声情報処理」,福祉と音声処理,一般)
- 映像との同期を考慮した話速変換方式の一検討
- 話速変換技術・音声変換技術の放送および関連ビジネスへの応用
- 6-6 コンテンツ検索のための報道番組自動書き起こしシステム(第6部門 メディア処理3)
- 7-8 視覚障がい者に好ましい高速音声提示方法に関する研究(第7部門 ヒューマンインフォメーション1)
- 2-10 定型文を音声合成するための録音文章作成手法の検討(第2部門 メディア処理2)
- 7-9 放送用単語合成音声作成編集ツールの検討(第7部門 マルチメディアフレームワーク)
- 2-2 視覚障害者向け地震・津波緊急文字スーパーの自動読み上げ方式に関する一検討(第2部門 放送技術(放送現業))
- 1-8 単語音声合成における話者混合データベース利用の一検討(第1部門 メディア工学1)
- 8-8 ラジオ放送への利用を目的とした株価音声合成装置(第8部門 放送技術(放送方式,放送現業,無線・光伝送))
- 7-12 録音編集型音声合成における休止時間長設定および時間長調整方法(第7部門 マルチメディア・ヒューマンインタフェース)
- 1-2 単語音声内における局所的な別話者音素入れ替えによる個人性や自然性への影響(第1部門 音声処理・セキュリティ)
- 22-4 話速変換を利用したインターネットでのラジオニュースサービス(第22部門 放送現業II)
- 1-1 音声合成における発話速度の制御規則に関する研究(第1部門 音声処理・セキュリティ)
- 11-2 番組音声とリスピーク音声の自動認識を利用したニュース字幕制作実験(第11部門 放送現業)
- 4-9 高齢者による番組背景音に関する主観評価結果と聴力低下に関する一考察(第4部門 ヒューマンインフォメーション1)
- 4-5 高齢者の聴力を考慮した放送音声サービスの基礎検討(第4部門 ヒューマンインフォメーション)
- 12-13 自然発話音声を対象にした聞きやすい高速話速変換技術(第12部門 ヒューマンインフォメーション2)