日本語慣用句コーパスの構築と慣用句曖昧性解消の試み(語彙知識)
スポンサーリンク
概要
- 論文の詳細を見る
慣用句には,慣用句の意味だけでなく文字通りの意味も表しうるという意味的曖昧性がある.我々は,慣用句の曖昧性解消技術の確立に向けて,日本語慣用句コーパスを構築している.本稿では,コーパスの現状とそのコーパスを用いた慣用句曖昧性解消実験の結果について報告する.我々の慣用句コーパスは曖昧性のある基本的な慣用句146句を対象としており,全体で113,460用例からなる.各用例は,それに含まれている慣用句相当文字列が慣用句として用いられているのか,あるいは文字通りの意味で用いられているのかを示すラベルが人手で付与されている.用例は全てWebコーパスから収集した.本コーパスは近日公開予定である.慣用句曖昧性解消実験では,機械学習に基づく標準的な単語曖昧性解消手法を直接的に適用した.正例と負例がともに50用例以上利用可能な93句を対象に実験したところ,英語慣用句の曖昧性解消に取り組んだ先行研究と同等かそれ以上と考えられる性能が得られた.
- 2008-07-10
著者
関連論文
- Webページの情報発信者の同定
- 主要・対立表現の俯瞰的把握 : ウェブの情報信頼性分析に向けて(情報分析・要約(テーマセッション1))
- 精細な文法に基づいたツリーバンク「檜」の構築(辞書,コーパス)
- 日本語ツリーバンク「檜」 : 言語理解のためのコーパス(辞書,コーパス)
- WWWからの大規模動詞含意知識の獲得
- メッセージの背後に潜む「問い」の抽出
- 表層的語彙分布に基づく談話/テクストの主観性・主体性分析に向けて
- 言葉の背後に潜む『問い』の抽出 (ことば工学研究会(第14回)テーマ:ことばと身体性)
- 自動検出のための慣用句の分類と語彙的情報(語と慣用句)
- 日英単言語Webコーパスからの対訳treebank自動獲得
- 日英単言語 Web コーパスからの対訳 treebank 自動獲得
- Webページの大規模収集・検索基盤の構築と運用
- Webページの大規模収集・検索基盤の構築と運用
- D-035 Webページの著者の同定(データベース,一般論文)
- 格フレームの対応付けに基づく用言の言い換え
- 主要・対立表現の俯瞰的把握 : ウェブの情報信頼性分析に向けて(情報分析・要約(テーマセッション1))
- 日本語慣用句コーパスの構築と慣用句曖昧性解消の試み(語彙知識)
- 日本語慣用句コーパスの構築と慣用句曖昧性解消の試み(語彙知識)
- 自動構築した大規模格フレームに基づく構文・格解析の統合的確率モデル
- 格フレームを用いた自然言語処理(下)格フレームに基づく構文・格解析とその応用
- 格フレームを用いた自然言語処理(上)基本語彙の整理と格フレームの自動獲得
- 高性能計算環境を用いたWebからの大規模格フレーム構築
- 名詞格フレーム辞書の自動構築とそれを用いた名詞句の関係解析
- 格フレーム辞書の漸次的自動構築
- 自動構築した格フレーム辞書と先行詞の位置選好順序を用いた省略解析
- 用言と直前の格要素の組を単位とする格フレームの自動構築
- 用言と直前の格要素の組を単位とする格フレームの自動獲得
- 京都大学自然言語処理ツール
- 構文・照応・評価情報つきブログコーパスの構築
- 基本語ドメイン辞書の構築と未知語ドメイン推定を用いたブログ自動分類法への応用
- 日本語HPSG : 統語的複合動詞の統語・意味構造の処理(言語知識・解析・言い換え)
- 構文・照応・評価情報つきブログコーパスの構築
- Co-STAR:上位下位関係獲得のための共訓練アルゴリズム
- 分布類似度とWikipediaから獲得した構造情報を利用した上位下位関係獲得
- 言語横断共訓練による単語間の上位下位関係の獲得
- Wikipedia を利用した上位下位関係の詳細化
- 意味的極性と単語クラスを用いたWhy型質問応答の改善