WWWを用いた書き言葉特有語彙から話し言葉語彙への用言の言い換え
スポンサーリンク
概要
- 論文の詳細を見る
書き言葉で使われる語彙と,話し言葉で使われる語彙には大きな違いがある.そのため,書き言葉テキストから合成された音声は不自然なものとなってしまう.書き言葉テキストからでも自然な音声の合成を可能にするために,本論文では,書き言葉特有語彙から話し言葉語彙への言い換えを学習する手法を提案する.ある表現が書き言葉特有語彙であるか,話し言葉語彙であるかは,その表現の書き言葉コーパスでの出現確率と話し言葉コーパスでの出現確率をもとにして判断する.書き言葉コーパスと話し言葉コーパスはWWWから自動収集したものを用いる.実験の結果,書き言葉コーパスと話し言葉コーパスの収集精度は94%,言い換え学習の精度は79%であり,提案手法の有効性を示すことができた.There are a lot of differences between expressions used in written language and spoken language. This paper represents a method of paraphrasing written language specific vocabulary into spoken language vocabulary. They can be distinguished based on the occurrence probability in written and spoken language corpora which are automatically collected from WWW. Experimental results indicated the effectiveness of our method. The precision of the collected corpora was 94%, and the accuracy of learning paraphrases was 79%.
- 2004-10-10
著者
-
鍛治 伸裕
東京大学生産技術研究所
-
岡本 雅史
東京工科大学片柳研究所
-
黒橋 禎夫
東京大学大学院情報理工学系研究科
-
岡本 雅史
東京大学大学院情報理工学系研究科
-
鍜治 伸裕
東京大学大学院情報理工学系研究科
関連論文
- 大規模ウェブテキストからの片仮名用言の自動獲得(テキストマイニング,データ工学論文)
- ボーンデジタル時代におけるウェブアーカイブとその活用基盤としてのSocio-Sense(Webアーカイビングの現状と課題)
- 対話型教示エージェントモデル構築に向けた漫才対話のマルチモーダル分析(ソーシャルインテリジェンス)
- 会話構造理解のための分析単位 : 実践:漫才対話のマルチモーダル分析(多人数インタラクションの分析手法〔第6回〕)
- コーパスからの固有表現辞書の自動構築 (「機械学習とその応用」および一般発表)
- 自動抽出した換喩表現を用いた係り受け関係のずれの解消
- A-13-4 漫才対話における暗示的共感構築の仕組みの分析(A-13. 思考と言語,一般セッション)
- A-13-3 漫才対話中におけるあいづちの音声表現「うん」の生起位置の分析(A-13. 思考と言語,一般セッション)
- 10.Socio Sense : 過去9年に及ぶWebアーカイブから社会の動きを読む(第2部:情報の高信頼蓄積・検索技術等の開発,学と産の連携による基盤ソフトウェアの先進的開発)
- メディアの協働効果実現に向けたオープンメディアリソース構築
- Webマイニングにおける語義曖昧性解消のための擬似負例を用いた能動学習
- 5L-6 ウェブからの分析対象文書抽出手法の検討(リーディングプロジェクト e-society:WebアーカイブとWebデータ解析技術,一般セッション,リーディングプロジェクト e-society)
- メッセージの背後に潜む「問い」の抽出
- 大規模テキスト知識ベースに基づく自動質問応答 : ダイアログナビ
- 自動質問応答システム,ダイアログナビの現状と課題
- 用例ベース翻訳のための日英アライメント確信度語類似度を用いた訳語選択
- 表層的語彙分布に基づく談話/テクストの主観性・主体性分析に向けて
- 対話研究に「意図」は必要か(意図研究のスペクトル)
- WWWを用いた書き言葉特有語彙から話し言葉語彙への用言の言い換え
- 言葉の背後に潜む『問い』の抽出 (ことば工学研究会(第14回)テーマ:ことばと身体性)
- 用例ベース翻訳のための対訳文の句アライメント
- 用例ベース翻訳のためのパラレルコーパスからの対訳対発見
- 用例ベース翻訳のためのパラレルコーパスからの対訳対発見
- 座談会:言語・非言語コミュニケーション研究からマルチモーダルコミュニケーション研究へ(多人数インタラクションの分析手法〔第7回〕)
- 大規模コーパスからの語義のマイニング
- 格フレームの対応付けに基づく用言の言い換え
- 辞書定義文の圧縮による定義表現パターンの発見
- 国語辞典に基づく平易文へのパラフレーズ
- 国語辞典に基づく平易文へのパラフレーズ
- 新動詞の成立にみる意味と形の変化の相関--「ファブる」と「モフる」の分析から
- 高性能計算環境を用いたWebからの大規模格フレーム構築
- 名詞格フレーム辞書の自動構築とそれを用いた名詞句の関係解析
- 格フレーム辞書の漸次的自動構築
- 自動構築した格フレーム辞書と先行詞の位置選好順序を用いた省略解析
- 用言と直前の格要素の組を単位とする格フレームの自動構築
- 会話コンテンツ獲得と管理(会話情報学)
- 知識カードを用いた分身エージェント(ソフトウェアエージェントとその応用論文)
- SENSEVAL-2日本語タスク
- 機械翻訳の現状と課題(機械翻訳)
- 料理教示発話の理解と作業構造の自動抽出(特別セッション「言語理解と行動」(2))
- 料理教示発話の理解と作業構造の自動抽出(特別セッション : 言語理解と行動(2))
- 作業教示映像の構造的理解へ向けて(マルチメディアとパターン認識理解,一般)
- HTML文書集合からの評価文の自動収集
- Webテキストを対象とした語義曖昧性解消のための言語資源の半自動構築
- 語彙統語パターンにもとづく制約付き分布クラスタリング (「機械学習とその応用」および一般発表)
- 自動構築した評価文コーパスからの評価表現辞書の構築
- 依存構造を考慮した評価文書の分類(分類, ブログ)
- 迂言表現と重複表現の認識と言い換え
- マイクロブログ上の流言に対するユーザの態度の分類(テーマセッション,大規模マルチメディアデータを対象とした次世代検索およびマイニング)
- マイクロブログ上の流言に対するユーザの態度の分類(テーマセッション,大規模マルチメディアデータを対象とした次世代検索およびマイニング)
- 5L-4 単語の半教師ありクラスタリング(リーディングプロジェクト e-society:WebアーカイブとWebデータ解析技術,一般セッション,リーディングプロジェクト e-society)
- 言い換えと逆翻字を用いた片仮名複合名詞の分割
- 京都大学附属図書館における自動レファレンス・サービス・システム
- 時系列テキストを用いた恒久性と一意性に基づく関係の分類(自然言語処理,学生論文特集秀逸論文,学生論文)
- 対義形容詞対との相互情報量を利用した概念語の順序付け
- 聞き手の感情を喚起する発話の分類と生成(感情・評価・態度)
- 聞き手の感情を喚起する発話の分類と生成(感情・評価・態度)