決定木を用いた日本語係受け解析
スポンサーリンク
概要
- 論文の詳細を見る
本稿ではコーパスから決定木を構成し日本語係受け解析に適用する手法を提案する.一般に日本語係受け解析では2文節間の係りやすさを数値で表現し, その数値を1文全体で最適化することによって係受け関係を決定する.したがって, 日本語係受け解析の問題は2文節間の係りやすさを正確に計算することに帰着される.提案手法の主旨は2文節の係りやすさの評価と必要な属性の自動選択に決定木を利用するということである.既存の統計的依存解析の研究では, 文節の種類によらず, あらかじめ決められた属性すべてによる条件付き確率で係りやすさを評価する.一方, 決定木による手法では, 係受け関係にある文節とそうでない文節を弁別する属性が, 2文節の種類に応じて重要な順に必要な数だけ選択される.したがって, 大量の属性をシステムに与えても必要がなければ利用されず, データスパースネスの問題を避けることが可能となる.これによって構文解析の精度向上に効果が期待される属性はすべて採用することができる.EDRコーパスを用いて手案手法の評価実験を行ったところ, 既存の統計的係受け解析手法を4%上回る解析精度が得られた.さらに本実験では, 1.決定木の枝刈りと解析精度の関係, 2.データ量と解析精度の関係, 3.種々の属性の解析精度に与える影響, 4.文節の主辞に関して頻出単語の表層, 分類語彙表カテゴリを属性に加えた場合の影響, の各項目について検討を行った.その結果, 1.少なめの枝刈りで解析精度が向上する, 2.係受け解析の学習に必要な文数はおよそ5万文である, 3.属性のうち特に有効なのは, 係り側文節の形と文節間距離である, 4.主辞の語彙情報を使っても必ずしも解析精度が上がるわけではない, の4点が明らかとなった.これらの結果は今後日本語係受け解析システムや日本語解析済みコーパスを構築する際に一定の指針となりうる.
- 一般社団法人情報処理学会の論文
- 1998-12-15
著者
-
白井 諭
Ntt-アドバンステクノロジ株式会社
-
白井 諭
国際電気通信基礎技研
-
白井 諭
Nttコミュニケーション科学研究所
-
春野 雅彦
ATR人間情報通信研究所
-
大山 芳史
NTTコミュニケーション科学基礎研究所
-
大山 芳史
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
大山 芳史
Ntt 情報通信研究所
-
春野 雅彦
Atr人間情報科学研究所
-
大山 芳史
Ntt
関連論文
- Support Vector Machineによるテキスト分類における属性選択
- 日本語語彙大系について
- テキスト音声変換における読み・韻律付与処理の評価 : ニュース文を対象として
- EU Advanced Course in Computational Neuroscience 1999の報告
- 意味類型構築のための文接続表現の体系化
- 機械翻訳のための日英文型パターン記述言語
- 機械翻訳のための日英文型パターン記述言語
- 等価的類推思考の原理による機械翻訳方式
- 市況速報文を対象とする用例利用型日英機械翻訳
- 日英新聞記事の自動記事対応付け
- 日英新聞記事の自動記事対応付け
- DBから抽出した日英新聞記事の自動対応付け
- 重要語句抽出による新聞記事自動要約
- 重要語句抽出による新聞記事自動要約
- 1D-1 新聞記事の自動要約によるニュース速報配信
- カタカナ表記述語の日英機械翻訳
- 英和辞書からの日英翻訳ルールの自動獲得
- 発音情報を用いた訳語対の自動抽出
- 大規模日本語コーパスからの連鎖型および離散型の共起表現の自動抽出法
- 大規模日本語コーパスからの連鎖型および離散型共起表現の自動抽出法
- 日英機械翻訳における原文自動書き替え型翻訳方式とその効果
- 日本文書き替え処理における制御ルールの機能別構成
- 日英機械翻訳における原文自動書き替え型翻訳方式とその効果
- 日英機械翻訳における原文自動書き替え型翻訳方式とその効果
- 「の」型名詞句における品詞情報と意味情報を併用した係り受け規則の自動生成
- 名詞間係り受け解析に必要な単語意味属性の組の最適化
- 「の」型名詞句における係り受け規則の自動生成法
- 市況速報記事を対象とした日英翻訳システムの構成
- IPAL動詞辞書の用例文に基づく日英翻訳用結合価パターン対の収集
- 専門分野対応の日英機械翻訳用構文意味辞書の構築
- 日英機械翻訳に必要な結合価パターン対の数とその収集方法
- IPAL動詞辞書との対比による日英翻訳用構文意味辞書の充足性の検討
- 日英機械翻訳用構文意味辞書の記述精度の向上と作成支援
- 日英機械翻訳のための単語辞書
- 日英機械翻訳のための単語辞書
- 日中機械翻訳プロトタイプ
- 日中機械翻訳プロトタイプ
- 市況速報記事に対するテンプレート型日英翻訳の効果
- 速報型日英翻訳システムALTFLASH
- バイリンガル旅行会話コーパスに見られる話し言葉の特徴分析
- 多言語翻訳用ユーザインタフェース
- 3N-4 ナ型形容詞に対する日英対訳用例文の収集について
- 決定木を用いた日本語係受け解析
- 複合和語動詞に対する日英対訳用例文の収集について
- 日本文新聞記事からの英文ヘッドライン生成法について
- 電子化意味辞書 : 商用システム用辞書と「日本語語彙大系」
- 英単語に対する述語性の連語的日本語訳語の分析
- 英文記事ヘッドラインの特徴について
- 日英機械翻訳システムALT-J/Eの研究開発 (特集論文 日英機械翻訳技術)
- 新聞記事文における括弧書き表現の分析とその処理について
- 日本語文章読み上げ技術 : AUDIOTEX
- 音声出力による姓名漢字表記の説明方式
- 姓名漢字表記を説明する対話システムの試作と評価
- 姓名漢字表記を説明する対話システムの試作と評価
- 結合価パターン対作成のための日英対訳用例文の収集
- 和語動詞に対する日英対訳用例文の収集について
- 置換えを用いたn-gramによる言語表現の抽出
- 日本文意味検索に必要な最小単語意味属性の組の決定
- 日英翻訳システムの改良とタグ付きコーパスの作成
- 経験則とその限界
- 日英機械翻訳における語用論的・意味論的制約を用いたゼロ代名詞の文章外照応解析
- 新聞記事日本文における修飾句と被修飾複合語の関係
- 日英機械翻訳のための構文辞書
- 日英機械翻訳のための構文辞書
- 日英機械翻訳のための意味属性体系
- 日英機械翻訳のための意味属性体系
- 日英変換技術と意味辞書 (特集論文 日英機械翻訳技術)
- 日英機械翻訳のための結合価パターン対の作成支援処理
- 従属節の階層構造に基づく日本語長文の自動分割とその効果
- 新聞記事日本文における書き替え対象表現の分布
- 階層的認識構造に着目した日本語従属節間の係り受け解析の方法とその精度
- 階層的認識構造に着目した日本語従属節間の係り受け解析の方法とその精度
- 日英機械翻訳用スケルトン-フレッシュ型構文意味辞書の構成
- 日英機械翻訳における利用者登録語の意味属性の自動推定
- 言語における話者の認識と多段翻訳方式
- 日英翻訳システムALT-J/Eにおける日本語解析技術
- 翻訳テンプレートの自動抽出 : 緩やかに対応付けされたデータからの対訳抽出
- 弱抑制による連鎖共起表現の抽出とそれに基づく離散共起表現の抽出
- トランスダクティブ・ブースティング法によるテキスト分類
- トランスダクティブ・ブースティング法によるテキスト分類
- 対訳データの階層的なグループ化に基づく英日翻訳
- シソ-ラスで調べる--『日本語語彙大系』の概要と用法 (特集 ことばを調べる)
- 言語過程説に基づく日本語品詞の体系化とその効用
- 多段解析法による日本語形態素解析の精度
- 日英機械翻訳における利用者登録語の意味属性の自動推定
- 日英機械翻訳における利用者登録語の意味属性の自動推定
- コミュニケーションは人を超えて--社会情轍研究の過去,現在,未来 (特集論文1 コミュニケーション科学10年の歩み)
- 機械翻訳技術とその適用
- 言語表現体系の違いに着目した日英機械翻訳機能試験項目の構成
- 従属節の依存関係を考慮した日本語係り受け解析の精度
- 日本語従属節の依存構造に着目した係り受け解析
- 日本語従属節の依存構造に着目した係り受け解析
- 用言意味属性を用いた日本語ゼロ代名詞の文章外照応解析
- Support Vector Machineによるテキスト分類
- 単語解析プログラムによる日本文誤字の自動検出と二次マルコフモデルによる訂正候補の抽出
- 近接単語の並びに着目した形態素解析多義の絞り込み
- 日本文書き替え処理における制御ルールの類型情報の抽出
- 日英機械翻訳における原文前編集の内容と効果について
- キ-ワ-ド自動抽出システム(INDEXER) (知能処理技術の応用)
- タイトル無し