単語分布類似度を用いた類推による単語間の意味的関係獲得法
スポンサーリンク
概要
- 論文の詳細を見る
情報爆発の時代に入り,大規模コーパスと計算機パワーの増大を背景に,構文的パターンに基づいて「因果関係」などの単語間の意味的関係の知識を獲得する研究が進められている.しかしながら,それらの研究は,文書中に直接的かつ明示的に書かれた知識を獲得するにとどまり,人間であれば解釈可能な間接的記述から獲得することや,文書に書かれていない知識を過去に蓄積された知識からの推論によって大規模に獲得することは行われていない.このような知識の獲得は,より大量の関係を獲得するためだけではなく,人類のイノベーションの加速にとっても重要である.本稿では,既存の構文的パターンに基づく方法で獲得された単語の意味的関係のデータベース,すなわち,特定の意味的関係を持つ単語対の集合を,類推によって大規模に拡張する方法を提案する.提案法は,入力された単語対の中の語を,ウェブから自動獲得した類似語に置換して大量の仮説を生成し,さらに単語間の類似度に基づいて仮説をランキングする.提案法は,従来法では困難な間接的記述からの意味的関係獲得を可能にして,さらには,そもそも文書に記述されている可能性が低い知識を獲得できる.約1億ページのウェブ文書を用いた実験によって,これらを検証するとともに,いくつかの意味的関係に関して,提案法で上位にランキングされた仮説では,最新の構文パターンに基づく獲得法とほぼ変わらない精度を達成できることを示す.
- 2011-04-15
著者
-
村田 真樹
独立行政法人情報通信研究機構
-
黒田 航
京都工芸繊維大学|早稲田大学総合研究機構
-
デサーガステイン
情報通信研究機構
-
村田 真樹
鳥取大学
-
風間 淳一
情報通信研究機構
-
村田 真樹
独立行政法人情報通信研究機構 知識創成コミュニケーション研究センター
-
村田 真樹
独立行政法人通信総合研究所:けいはんな情報通信融合研究センター
-
鳥澤 健太郎
独立行政法人情報通信研究機構
-
村田 真樹
通信総合研究所
-
大和田 勇人
東京理科大学
-
土田 正明
情報通信研究機構|東京理科大学
-
黒田 航
京都大学
関連論文
- F-027 ベイジアンフィルタとユーザ認証を組み合わせたspamメールフィルタリング(人工知能・ゲーム,一般論文)
- 1X-5 アクセスモニタとファイルバックアップの統合による自己修復機構の設計(セキュア設計・実装・フォレンジクス,学生セッション,セキュリティ)
- コミュニケーションサイトに投稿されたメッセージに対する著者の推定(情報抽出(テーマセッション3))
- 日本語発話文の敬語の誤用を指摘するシステム(人工知能)
- 表記選択支援のための優勢表記辞書の作成(語彙)
- メールの文章における段落間の接続の強さの推定(コミュニケーション支援(テーマセッション3))
- 岩波国語辞典を利用した語義タグ付きテキストデータベースの作成
- イノベーション支援に向けた知識獲得と仮説生成 (データによる分析と評価)
- 3T-7 情報機器制御のためのWeb-topユーザーインターフェース
- AS-4-3 敬語の誤用を指摘するシステム : GUIの実装(AS-4.円滑なコミュニケーション,シンポジウム)
- LE-002 テンス・アスペクト・モダリティの翻訳における機械翻訳システムの誤りの調査(E分野:自然言語)
- 自然言語処理技術を用いた大会プログラム作成支援について
- 用例ベースによるテンス・アスペクト・モダリティの日英翻訳
- WWWからの大規模動詞含意知識の獲得
- シリーズ型質問文に対して単純結合法を利用した逓減的加点質問応答システム
- 階層構造データ列の簡易な高速検索アルゴリズム(重要語抽出・検索・文書分類)
- 階層構造データ列の簡易な高速検索アルゴリズム(重要語抽出・検索・文書分類)
- 質問応答システムにおける逓減加点法に基づく複数記事情報の利用(質問応答・文書分類・自動収集)
- SENSEVAL2J 辞書タスクでのCRLの取り組み : 日本語単語の多義性解消における種々の機械学習手法と素性の比較
- QAシステムのための音声入力インターフェース
- 日本語文章における表層表現と用例を用いた動詞の省略の補完
- 多価イオンの衝突輻射モデルの構築の自動化支援
- 自己組織型意味マップにおける形容詞と抽象名詞の分布 : 客観的なシソーラスをめざして(言語理解とコミュニケーション一般)
- 日本語名詞の意味マップの自己組織化
- Webサイトからの盗作の自動検出システム
- H-034 マルチドメインを持つ遠縁な相同タンパク質の検出手法(H分野:生体情報科学)
- 意味的制約を用いた日本語名詞における間接照応解析
- 用例や表層表現を用いた日本語文章中の指示詞・代名詞・ゼロ代名詞の指示対象の推定
- 表層表現を手がかりとした日本語名詞句の指示性と数の推定
- 日本語名詞における間接照応
- 名詞の指示性を利用した日本語文章における名詞の指示対象の推定
- LE-001 生物医学文献での蛋白質名認識における過学習とTransductive SVMを用いた過学習の軽減(自然言語・音声・音楽)
- 投稿履歴と文体の類似判定を利用したQ&Aサイトにおけるなりすましユーザの検出
- 観光地に対する長所情報の収集と分類の試み(自然言語の論理と感情)
- 観光地に対する長所情報の収集と分類の試み(自然言語の論理と感情)
- 3W-4 アソシエーションルールを用いた電子メールのマルチラベル分類(学習(2),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 1S-4 クチコミ掲示板を対象とした製品評価情報の分類(ソーシャルWeb,学生セッション,データベースとメディア,情報処理学会創立50周年記念)
- 情報抽出表とソートグラフを利用したテキストマイニングシステム Simpleminer
- 入力文の格助詞ごとに学習データを分割した機械学習による受身文の能動文への変換における格助詞の変換
- 大規模記事群からの数値固有表現情報のテキストマイニング可視化システム(ツール・システム)
- 大規模記事群からの数値情報に関わるテキストマイニング・可視化
- E-012 大規模記事群からの数値固有表現情報のテキストマイニング可視化(E分野:自然言語・音声・音楽)
- LE_005 受け身文の能動文への変換における機械学習を用いた格助詞の変換に関する実験(E分野:自然言語)
- LE_001 テキストからの主要数値ペア群の抽出とそのグラフ化(E分野:自然言語)
- 事態の捉え方に関する副詞辞書の構築
- 日本語発話文における敬語の誤用を指摘するシステムの開発
- MuSTデータを利用した自動動向調査システムの開発(情報可視化,テキスト情報の要約と掲示に関わる自然言語処理シンポジウム及び一般)
- 階層的定性シミュレーションによる因果ネットワークの生成
- 定性推論を組み込んだ医療診断システム
- 用例に基づく手法と機械学習モデルの組合せによる訳語選択
- 表層表現に着目した自由回答アンケートの意図に基づく自動分類
- 5L-2 バイトコードによるJava servletプログラムの解析(プログラミング支援環境,学生セッション,ソフトウェア科学・工学)
- 4P-8 生物シミュレーション構築のための確率的構文を導入した論理型言語の提案(プログラミング言語,学生セッション,ソフトウェア科学・工学,情報処理学会創立50周年記念)
- 共生進化に基づく帰納論理プログラミングの予測精度の向上
- 対訳コーパスを利用したBerkeley FrameNetからの日本語Lexical Unitsの半自動的発見手法
- F-018 造語に特化した固有表現抽出(F分野:人工知能・ゲーム,一般論文)
- 概念辞書によるシステマティックなイノベーション支援に向けて (データによる分析と評価)
- 属性語の Web 文書からの自動発見と人手評価のための基準
- Wikipedia の記事構造からの上位下位関係抽出
- 5J-2 Wikipediaの階層構造を知識源とする上位下位関係の自動獲得(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- Web からの属性情報記述ページの発見
- メールの文章における段落間の接続の強さの推定(コミュニケーション支援(テーマセッション3))
- F-054 WWWのテキスト情報を利用した関連企業の自動抽出(F分野:人工知能・ゲーム,一般論文)
- 帰納論理プログラミングに基づく順序データからの学習方式
- Web サイトからの盗作の自動検出システム
- F-026 Swingによる視覚化を利用した肝細胞癌再発予測支援(F分野:人工知能・ゲーム,一般論文)
- 5ZJ-3 ILPを用いたBCL2ファミリータンパク質の一次構造からのフォールド予測(バイオ情報学,学生セッション,コンピュータと人間社会)
- H_020 モデル植物の購買履歴からの変異体選択支援システム(H分野:生体情報科学)
- 機械学習手法を用いた日本語格解析 : 教師信号借用型と非借用型, さらには併用型
- 機械学習手法を用いた日本語格解析 : 教師信号借用型と非借用型, さらには併用型
- 複合動詞と主体化に関する考察--複合動詞「〜づける」の分析を通して
- 論文アブストラクトから原子分子の状態の情報を検出,抽出する方法の研究
- 質問応答システムの現状と展望
- 参加者から見たNTCIR(NTCIR : 情報アクセスに関わるテキスト処理技術の評価ワークショップ)
- diffを用いた言語処理 : 便利な差分検出ツールmdiffの利用
- LF-004 自動言い換え技術を利用した三つの英語学習支援システム(F. 人工知能)
- 受け身/使役文の能動文への変換における機械学習を用いた格助詞の変換
- 機械学習を用いたタイ語の品詞タグづけ
- diffと言語処理
- 頻度に基づく正の例からの負の例の予測 : 日本語表現の誤り検出と外の関係の文の自動抽出
- diffと言語処理
- 頻度に基づく正の例からの負の例の予測 : 日本語表記の誤り検出と外の関係の文の自動抽出
- AS-6-1 発話文の敬語の誤用を指摘するシステム : プロトタイプの開発(AS-6. 円滑なコミュニケーションの解明へのアプローチ, 基礎・境界)
- 複数の辞書の定義文の照合に基づく同義表現の自動獲得
- 単語分布類似度を用いた類推による単語間の意味的関係獲得法
- 機械学習を用いたタイ語の品詞タグづけ
- A-15-15 柔軟な判定を行う日本語敬語誤用判定システムの開発(A-15.ヒューマン情報処理,一般セッション)
- 日本語の敬語誤用判定システム--判定ルールの妥当性の程度の数値化による柔軟な判定
- Web時代の音声・言語技術
- 言い換えの統一的モデル : 尺度に基づく変形の利用
- 翻訳メモリとコーパスを用いた学習に基づく訳語選択
- SENSEVAL2J辞書タスクでのCRLの取り組み
- 種々の機械学習手法を用いた多義解消実験
- Co-STAR:上位下位関係獲得のための共訓練アルゴリズム
- 分布類似度とWikipediaから獲得した構造情報を利用した上位下位関係獲得
- 大規模分布類似度計算のためのベイズ手法を用いた新しい類似尺度
- 言語横断共訓練による単語間の上位下位関係の獲得
- A-13-6 心的状態を考慮したテキスト対話からの情緒推定(A-13.思考と言語,一般セッション)
- Wikipedia を利用した上位下位関係の詳細化
- 名詞の類似表現拡張に基づくオープンドメイン音声質問応答システム用言語モデルの構築