統計的構文解析における構文的統計情報と語彙的統計情報の統合について
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,構文解析の曖昧性解消を行うために,構文的な統計情報と語彙的な統計情報を統合する手法を提案する.我々が提案する統合的確率言語モデルは,構文的優先度などの構文的な統計情報を反映する構文モデルと,単語の出現頻度や単語の共起関係などの語彙的な統計情報を反映する語彙モデルの2つの下位モデルから成る.この統計的確率言語モデルは,構文的な統計情報と語彙的な統計情報を同時に学習する過去の多くのモデルと異なり,両者を個別に学習する点に特徴がある.構文的な統計情報と語彙的な統計情報を独立に取り扱うことにより,それぞれの統計情報を異なる言語資源から独立に学習することができるだけでなく,それぞれの統計情報が曖昧性解消においてどのような効果を果たすのかを容易に分析することができる.この統計的確率言語モデルを評価するために,日本語文の文節の係り受け解析を行った.構文モデルを用いたときの文節の正解率は73.38%となり,ベースラインに比べて11.70%向上した.また,構文モデルと語彙モデルを組み合わせることにより,文節の正解率はさらに10.96%向上し84.34%となった.この結果,本研究で提案する枠組において,語彙的な統計情報は構文的な統計情報と同程度に曖昧性解消に貢献することを確認した. : In this paper, we propose a new framework of statistical language modeling integrating syntactic statistics and lexical statistics. Our model consists of two submodels, the syntactic model and lexical model. The syntactic model reflects syntactic statistics, such as structural preferences, whereas the lexical model reflects lexical statistics, such as occurrence of each word and word collocations. One of the characteristics of our model is that it learns both types of statistics separately, although many previous models learn them simultaneously. Learning each submodel separately enables us to use a different language source for different submodels, and to make understanding of each submodel's behavior much easier. We conducted a preliminary experiment, where our model was applied to the disambiguation of dependency structures of Japanese sentences. The syntactic model achieved 73.38% in Bunsetu phrase accuracy, which is 11.70 points above the baseline, and when incorporating the lexical model with the syntactic model, further 10.96 point gain was achieved, to 84.34%. Thus the contribution of lexical statistics for disambiguation is as great as that of syntactic statistics in our framework.
- 言語処理学会の論文
- 1998-07-10
著者
-
徳永 健伸
東京工業大学大学院情報理工科学研究科
-
田中 穂積
東京工業大学
-
乾 健太郎
九州工業大学情報工学部知能情報工学科
-
白井 清昭
東京工業大学大学院情報理工学研究科
-
白井 清昭
北陸先端科学技術大学院大学情報科学研究科
-
徳永 健伸
東京工業大学
-
白井 清昭
北陸先端科学技術大学院大学
関連論文
- 大域的な文章構造の類似性を利用したクローズドキャプション中の定型的な文章区間の抽出(自然言語処理)
- 格フレーム辞書を用いた日本語複合名詞の解析(学生セッション II)
- TREC-7参加報告
- 放送番組を素材としたマルチメディア百科事典の自動構築
- 岩波国語辞典を利用した語義タグ付きテキストデータベースの作成
- 格フレーム辞書を用いた日本語複合名詞の解析(学生セッション II)
- 日本語空間名詞の分類(特別セッション「言語理解と行動」(3))
- 日本語空間名詞の分類(特別セッション : 言語理解と行動(3))
- F-014 エージェントのための空間名詞の分類とその解釈方法について(F.人工知能)
- D-5-10 視界からの情報を用いた空間表現の理解に関する研究(D-5. 言語理解とコミュニケーション)
- 日本語参照表現コーパスの構築と分析
- AdaBoostを利用した字幕テキストからの定型表現文章区間抽出(テキストの類似性・文処理モデル)
- AdaBoostを利用した字幕テキストからの定型表現文章区間抽出(テキストの類似性・文処理モデル)
- 汎用アノテーションツールSlate
- WWWページからの手順に関する箇条書きの抽出
- 手順の説明を含む箇条書きを抽出するための手がかり分析
- 自然言語を理解するアニメーテッドエージェントのための3次元仮想空間における位置の表現と処理
- アニメーテッドエージェントにおける行動プランの並列実行に関する研究
- 自然言語を理解するアニメーテッドエージェント
- 視線情報を含むマルチモーダル協調作業対話コーパスの構築と利用
- 文脈と対象世界モデルを利用した機械翻訳へ向けて (「機械翻訳」)
- 一般化LR法を用いた形態素解析と統語解析の統合
- 一般化LR法を用いた形態素解析と統語解析の統合
- 一般化LR法を用いた形態素解析と構文解析の統合
- シソーラスと統計情報を統合した単語の類似度計算について
- シソーラスと統計情報を統合した単語の類似度計算について
- 事例に基づく動詞多義性解消における事例の類似度計算について
- 単語多義性解消法の比較検討
- 効用最大化法に基づく多義性解消用事例の選択的収集
- 効用最大化法に基づく多義性解消用事例の選択的収集
- 多義性解消に用いる事例の獲得
- 動詞多義性解消における格要素の貢献度について
- 関係データベースを用いた構文木付きコーパス検索手法
- ロボットにおける言語理解(ロボットにおける音響技術)
- ロボットにおける言語理解
- テキスト構文構造類似度を用いた類似文検索手法(セッション3: メタデータとオントロジ応用)
- テキスト構文構造類似度を用いた類似文検索手法(セッション3: メタデータとオントロジ応用)
- 大規模日本語文法の開発
- 日英言語横断情報検索のための翻訳知識の獲得
- ロボットとの会話 : 人工知能からのアプローチ(知能ロボットの技術 : 人工知能からのアプローチ(後編))
- 単語の共起情報を利用した文法主導の係り受け解析(基盤・要素技術)(セマンティックウェブと自然言語処理その他一般)
- 音声対話システムにおける日本語自己修復の処理
- 国語辞典とシソーラスの統合
- 音声対話用構文解析器の頑健性の評価
- 事例に基づく演奏表情の生成
- 事例に基づく演奏表情の生成に関する研究
- 事例ベースで生成された演奏表情を用いて自然な演奏を行なう伴奏システム
- 事例ベースで生成された演奏表情を用いて自然な演奏を行なう伴奏システム
- 事例ベースの演奏表情生成システム : Kagurame Phase-I
- Kagurame Phase-I : 事例ベースの演奏表情生成システム
- Kagurame Phase-I : 事例ベースの演奏表情生成システム
- 事例ベースの演奏表情生成手法に関する研究
- 表情情報の操作を目的とした音楽の構造モデルに関する研究
- システム主導型コーパス作成インターフェースとその評価(抽出,コーパス)
- 決定リストにおける規則の適用順序に関する考察
- 2000-NL-138-12 統計的手法に基づく形容詞または形容動詞の修飾先の決定
- NLC2000-21 統計的手法に基づく形容詞または形容動詞の修飾先の決定
- 構造付きコーパスからの統語的知識の自動獲得とその精密化
- 言語理解・意味理解の先駆者田中穂積先生の想い出(12)
- 呼応する名詞の包含関係に着目した助数詞オントロジーの自動構築と評価(語彙・知識獲得)
- E-009 名詞と助数詞の呼応関係に基づく助数詞オントロジーの自動構築(E分野:自然言語・音声・音楽)
- 空間語選択における幾何的要因の影響
- 比喩理解過程における創発特徴の心理実験による検証
- D-5-12 EMアルゴリズムを利用した属性名抽出の検討(D-5.言語理解とコミュニケーション,一般講演)
- E_017 クローズドキャプションを対象とした被写体の動作推定(E分野:自然言語)
- 文書解析と要約のための支援環境
- 決定リストを用いた語義曖昧性解消
- RWCにおける分類コード付きテキストデータベースの開発
- RWCにおける分類コード付きテキストデータベースの開発
- 「AIマップ-自然言語へのアプローチ」に対するコメントと回答
- 談話の顕現性を考慮した重要語抽出とその応用
- 格要素間の依存関係を考慮した選択選好モデル
- 日本語参照表現コーパスの構築と分析
- 日本語参照表現コーパスの構築と分析
- 参照表現における知覚的群化について
- 参照表現における知覚的群化について(語彙1)
- 日本語参照表現コーパスの構築と分析
- 知覚的群化に基づく参照表現の生成
- 物体の集合関係を含む参照表現の解析(文脈・照応解析)
- 物体の集合関係を含む参照表現の解析(文脈・照応解析)
- 新聞記事の要約のためのテンプレートの自動抽出
- コーパスに基づく言語処理の限界と展望(ここまできた自然言語処理-例文の収集とその利用-)
- 知覚的群化を利用した参照表現の生成
- 5. 話し言葉における言い直しの処理(音声情報処理技術の最先端)
- 音声対話システムにおける不適格性の処理
- 自然言語の並列構造解析へのスキッピングパーザの応用
- 第3回応用自然言語処理国際会議 第6回自然言語生成に関する国際ワークショップ
- 日本語学習者用電子化辞書の開発に向けて
- 文脈情報を使用した略語の自動復元
- 文脈情報を使用した略語の自動復元
- 表層的・構造的対訳対検索の長所と短所
- 動詞多義性解消における語彙交替現象
- 情報探索雑談におけるトピック遷移検出(トピック)
- 言語処理を利用した知的情報アクセス : 検索,抽出,要約,分類,QA(自然言語とコンピュータ)
- 自然言語によるアニメーションコントロールシステム : 傀儡
- 大規模日本語文法の開発 : 事例研究
- 大規模日本語文法の開発 : 事例研究
- プランニングの知識を用いた照応・省略解決
- 漢字インデックスを利用したパラフレーズの抽出
- 自然言語を理解するソフトウェアロボット:傀儡次世代インタラクションのための情報技術