コーパスに基づく動詞の多義解消
スポンサーリンク
概要
- 論文の詳細を見る
本稿では, コーパスから抽出した動詞の語義情報を利用し, 文中に含まれる多義語の曖昧性を解消する手法を提案する. 先ずコーパスから動詞の多義解消に必要な情報を抽出する手法について述べる. 本手法では, 多義を判定しながら意味的なクラスタリングを行なうことで多義解消に必要な情報を抽出する. そこで, 表層上は一つの要素である多義語動詞を, 多義が持つ各意味がまとまった複数要素であると捉え, これを一つ一つの意味に対応させた要素(仮想動詞べクトルと呼ぶ) に分解した上でクラスタを作成するという手法を用いた. 本手法の有効性を検証するため, 丹羽らの提案した単語ベクトルを用いた多義語の解消手法と比較実験を行なった結果, 14 種類の多義語動詞を含む1,226 文に対し, 丹羽らの手法が平均62.7%の正解率に対し, 本手法では71.1%の正解率を得た.In this paper, we focus on a definition of polysemy in terms of distributional behaviour of words in monolingual texts and propose a method for disambiguating word-senses in sentences containing occurrences of polysemous verbs. We first discuss existing work on some corpus-related approaches on word-sense disambiguation and show the significance of our approach by comparing it with other related work. Then we give a definition of polysemy from the viewpoint of clustering and propose a clustering method which automatically recognises polysemous words. Finally the information extracted by the clustering method is shown to contribute to disambiguating word-senses in sentences containing occurrences of polysemous verbs. We report the results of two experiments. The first experiment, Disambiguation Experiment, is conducted in order to see how the extracted polysemy information can be used to disambiguate word-senses in actual texts. The second, Comparative Experiment, is conducted in order to see how our disambiguation technique is effective than other related approach, Niwa’s technique. The results of experiments demonstrate the applicability of our proposed method.
- 言語処理学会,The Association for Natural Language Processing,山梨大学工学部電子情報工学科,東京大学理学部情報科学科,Deptartment of Electrical Engineering and Computer Science, Yamanashi University,Department of Information Science, University of Tokyoの論文
- 1997-04-10
著者
-
福本 文代
山梨大学大学院医学工学総合研究部
-
福本 文代
山梨大学工学部
-
辻井 潤一
東京大学理学部情報科学科
-
辻井 潤一
東京大学
-
辻井 潤一
東京大学大学院情報理工学系研究科
-
辻井 潤一
東京大学大学院情報理工学系研究科コンピュータ科学専攻|マンチェスター大学情報学研究科|英国国立テキストマニングセンター
関連論文
- 連載:理学のキーワード : 第26回
- 理学のキーワード : 第11回
- 単語の類似尺度に基づくシソーラス辞書への用例付与(学生セッション II)
- WordNetの同義語クラスとその上位関係を利用した文書の自動分類
- Web上から取得した共起頻度と音象徴によるオノマトペの自動分類(自然言語処理)
- マルチモーダルユーザインターフェースを備えた高次コミュニケーション空間の構築に関する研究開発通信放送機構委託研究(1997-2001)
- 頑健なHPSGパーザの出力からTDL意味表現への変換手法(推論・意味)
- MK-6 東京大学理学部生物情報科学学部教育特別プログラム(大型プロジェクト紹介,学術系企画)
- 単語の類似尺度に基づくシソーラス辞書への用例付与(学生セッション II)
- 2P-3 タームのrepresentativenessを測るための新指標
- タームのrepresentativenessを測る
- コーパスに基づく動詞の多義解消
- 辞書を使わない日本語専門用語の自動分割
- 専門用語の自動抽出
- コーパスに基づく動詞の多義解消
- 1C-1 高速な類似文字列検索アルゴリズム(情報検索・情報推薦,一般セッション,データベースとメディア,情報処理学会創立50周年記念)
- HPSG Supertagging の精度向上のための単語クラスタリング
- HPSG Supertagging の精度向上のための単語クラスタリング
- 編集にあたって(自然言語処理の高度化による知的生産性の向上)
- 深い構文解析のための高被覆な中国語HPSG文法の開発
- 日本語CCGの語彙項目獲得(語彙・概念の獲得と同義語)
- SupertaggingとCFG-filteringによるHPSG構文解析の高速化(深い言語処理のためのフレームワーク)
- 純粋な逐次処理による構文解析での探索候補数の削減(構文解析・機械翻訳)
- 純粋な逐次処理による構文解析での探索候補数の削減(構文解析・機械翻訳)
- 頑健なHPSGパーザの出力からTDL意味表現への変換手法(推論・意味)
- 教師なし隠れマルコフモデルを利用した最大エントロピータグ付けモデル
- PCFGと分岐HMMを用いた構文解析(文構造解析)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- PCFGと分岐HMMを用いた構文解析(文構造解析)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- PCFGと分岐HMMを用いた構文解析
- 実用的な文法を開発するためのデバッグツール
- 言語理解・意味理解の先駆者田中穂積先生の想い出(8)
- 相互作用情報タグつき生命科学論文アブストラクトコーパスの作成(Text mining)
- 4 バイオNLPのためのコーパスと各種リソースの現状(ポストゲノム時代に高まるバイオ自然言語処理への期待 : バイオ自然言語処理最新事情)
- ゲノム科学におけるテキストマイニングと自然言語処理 (ゲノムサイエンスの新たなる挑戦) -- (第3部 ゲノム情報科学)
- 超高速ATM LANの構築法と次世代ユーザーインタフェースに関する研究
- 言語データマネージメントのための言語タグを利用した区間演算と区間検索
- 階層構造におけるカテゴリの統合と類似文書抽出への適用(学生セッション I)
- 階層構造におけるカテゴリの統合と類似文書抽出への適用(学生セッション I)
- マルチラベルの分野名タグに対する事例間類似度に基づいた誤り修正(自然言語処理)
- 分野の階層構造を利用したコーパスの誤り修正と文書分類への適用(自然言語処理)
- TD-2-1 知的情報検索のための大規模言語データの利用(TD-2. WEB知的処理の基礎)
- 話題の推移に基づく続報記事の自動抽出(自然言語)
- 語義の曖昧性解消のための最適な属性選択
- 語義の曖昧性解消のための最適な属性選択
- 語の重み付け学習を用いた文書の自動分類
- 類推に基づく語の重み付け学習を用いた動詞の多義解消
- 音声とポインティングジェスチャを利用した指示物同定
- 文脈依存の度合を考慮した重要パラグラフの抽出
- ニュース文の話題セグメンテーション
- 3語の同時出現頻度を利用した前置詞句の係り先の曖昧性解消
- 辞書の語義文を用いた文書の自動分類
- ニュース文を対象とした話題の認識
- 日本語の述部階層構造に基づく形態論的な文法規則の記述法
- ニュース文を対象とした話題毎のセグメンテーション
- 3語の同時出現頻度を利用した前置詞句の係り先の曖昧性解消
- 係り受けの強度に基づく依存文法 : 制限依存文法
- 局所化した単一化文法とその表現
- 制限依存文法とその表現
- 生命の理解とオントロジー (特集 ゲノムサイエンスの新地平--30億文字の生命設計図を探る)
- 3つ以下の候補から係り先を選択する係り受け解析モデル
- 並列HPSGパーザーに向けて
- 生きた言葉を捉える技術--自然言語処理の躍進と新たな課題 (特集 言語学的探究の行方--「生きたことば」と言語研究)
- 計算機による言語情報処理研究と言語学 (特集 言語処理研究の新展開--計算機と言語学の対話に向けて)
- 6 ゲノム情報学と言語処理(ゲノム情報科学 : 観測技術の進展を支えるインフォマティクス)
- リレー対談 認知科学との対話(4)計算言語学から探る人間の知--辻井潤一×辻幸夫
- 言語を計算機でどのように捉えるか (特集 ことばのコンピュートピア--人間との対話を目ざして)
- ことばとコンピュータ--言語理解のプロセスを探る-12・最終回-計算言語学の展開と行方
- ことばとコンピュータ (11)二つの言語学は統合可能か
- ことばとコンピュータ--言語理解のプロセスをさぐる(10)反カテゴリカルなシステムの可能性
- ことばとコンピュータ(9)90年代言語処理研究--その転回の源流
- ことばとコンピュータ--言語理解のプロセスをさぐる(8)八〇年代合理主義の功罪
- ことばとコンピュータ--言語理解のプロセスをさぐる(7)合理主義の曲がり角
- ことばとコンピュータ(6)移行派理論のブレークスルー
- ことばとコンピュータ--言語理解のプロセスをさぐる(5)確率モデルによる機械翻訳の進化
- ことばとコンピュータ(4)機械翻訳における経験主義と合理主義
- マルチプルアライメントによる放送に対する反響の抽出(「主観表現処理の最前線」シンポジウム)
- 日本語固有表現抽出の難易度を示す指標の提案と評価
- 全ての部分文字列を考慮した文書分類(分類)
- UIMAを基盤とする相互運用性の向上と自動組み合わせ比較 : 国際共同プロジェクトU-Compare(アーキテクチャ)
- UIMAを基盤とする相互運用性の向上と自動組み合わせ比較 : 国際共同プロジェクトU-Compare(アーキテクチャ)
- レビューに対する評価指標の自動付与
- 特別寄稿 情報の消費を効率化する第3の革命
- 電子文書による情報アクセスと情報の共有
- 特許のトータルな系でのシステム構成、明晰な日本語の定義などが重要 (Japio年誌ネット座談会 特許分野における機械翻訳の活用と、特許版・産業日本語への期待)
- 基調講演 テキストから知識・情報へ:生命科学を題材にして (2003年情報学シンポジウム講演論文集--データの共有と知識の発見・創造) -- (知識創造のための基盤技術)
- e-サイエンスから研究活動の電子化へ
- 普通のなかの個別性 (誌上月報 シリーズ言語科学(1)文法理論:レキシコンと統語)
- 招待講演 情報共有と知識共有のための言語処理技術の最前線 (〔教育システム情報学会〕言語・知識処理応用研究部会 第82回研究会)
- 固有表現抽出のための大規模訓練データの自動獲得
- 固有表現抽出のための大規模訓練データの自動獲得
- 自動意味役割付与における意味役割の汎化
- アラインメントに基づいた日中漢字の対応関係における解析(機械翻訳・言語識別)
- JST-9 情報のモビリティを高めるための基盤技術(大型プロジェクト紹介,学術系企画)
- 行動科学と計算言語学 (特集 行動科学とは何か)
- 集合間類似度に対する簡潔かつ高速な類似文字列検索アルゴリズム
- 中国の研究事情
- 合理主義と経験主義のはざまで : 内的な処理の計算モデル(ポスト経験主義の言語処理)
- 少数の正例とラベルなし事例による文書の自動分類(自然言語処理)
- 論文誌の役割
- Web掲示板における皮肉の分類および自動検出