大規模分布類似度計算のためのベイズ手法を用いた新しい類似尺度
スポンサーリンク
概要
- 論文の詳細を見る
これまで提案されている語の意味的類似度尺度は,文脈プロファイルを限られた量のデータから点推定で求めて利用していることから,データスパースネスに対して頑健ではない.本論文は,ベイズ推定の手法を用いた頑健な意味的類似度計算方法を提案する.提案手法は,ベイズ推定により得られた文脈プロファイルの分布の下で元となる類似度の期待値をとることにより類似度を計算する.文脈プロファイルが多項分布で表現され,ベイズ推定における事前分布がDirichlet分布であり,元となる類似度がBhattacharyya係数である場合,この方法は解析解を持ち,効率的に計算できる.日本語の大規模語彙に対する類似度計算において,提案手法が既存のよく知られた意味的類似度尺度よりも優れていることを実験で示す.
- 2011-12-15
著者
-
村田 真樹
独立行政法人情報通信研究機構
-
黒田 航
京都工芸繊維大学|早稲田大学総合研究機構
-
村田 真樹
鳥取大学
-
風間 淳一
情報通信研究機構
-
村田 真樹
独立行政法人情報通信研究機構 知識創成コミュニケーション研究センター
-
村田 真樹
独立行政法人通信総合研究所:けいはんな情報通信融合研究センター
-
村田 真樹
鳥取大学大学院工学研究科
-
鳥澤 健太郎
独立行政法人情報通信研究機構
-
村田 真樹
通信総合研究所
-
黒田 航
京都大学
関連論文
- コミュニケーションサイトに投稿されたメッセージに対する著者の推定(情報抽出(テーマセッション3))
- 日本語発話文の敬語の誤用を指摘するシステム(人工知能)
- 表記選択支援のための優勢表記辞書の作成(語彙)
- メールの文章における段落間の接続の強さの推定(コミュニケーション支援(テーマセッション3))
- 岩波国語辞典を利用した語義タグ付きテキストデータベースの作成
- イノベーション支援に向けた知識獲得と仮説生成 (データによる分析と評価)
- AS-4-3 敬語の誤用を指摘するシステム : GUIの実装(AS-4.円滑なコミュニケーション,シンポジウム)
- LE-002 テンス・アスペクト・モダリティの翻訳における機械翻訳システムの誤りの調査(E分野:自然言語)
- 自然言語処理技術を用いた大会プログラム作成支援について
- 用例ベースによるテンス・アスペクト・モダリティの日英翻訳
- WWWからの大規模動詞含意知識の獲得
- シリーズ型質問文に対して単純結合法を利用した逓減的加点質問応答システム
- 階層構造データ列の簡易な高速検索アルゴリズム(重要語抽出・検索・文書分類)
- 階層構造データ列の簡易な高速検索アルゴリズム(重要語抽出・検索・文書分類)
- 質問応答システムにおける逓減加点法に基づく複数記事情報の利用(質問応答・文書分類・自動収集)
- SENSEVAL2J 辞書タスクでのCRLの取り組み : 日本語単語の多義性解消における種々の機械学習手法と素性の比較
- QAシステムのための音声入力インターフェース
- 日本語文章における表層表現と用例を用いた動詞の省略の補完
- 多価イオンの衝突輻射モデルの構築の自動化支援
- 自己組織型意味マップにおける形容詞と抽象名詞の分布 : 客観的なシソーラスをめざして(言語理解とコミュニケーション一般)
- 日本語名詞の意味マップの自己組織化
- Webサイトからの盗作の自動検出システム
- 意味的制約を用いた日本語名詞における間接照応解析
- 用例や表層表現を用いた日本語文章中の指示詞・代名詞・ゼロ代名詞の指示対象の推定
- 表層表現を手がかりとした日本語名詞句の指示性と数の推定
- 日本語名詞における間接照応
- 名詞の指示性を利用した日本語文章における名詞の指示対象の推定
- LE-001 生物医学文献での蛋白質名認識における過学習とTransductive SVMを用いた過学習の軽減(自然言語・音声・音楽)
- 投稿履歴と文体の類似判定を利用したQ&Aサイトにおけるなりすましユーザの検出
- 観光地に対する長所情報の収集と分類の試み(自然言語の論理と感情)
- 観光地に対する長所情報の収集と分類の試み(自然言語の論理と感情)
- 情報抽出表とソートグラフを利用したテキストマイニングシステム Simpleminer
- 入力文の格助詞ごとに学習データを分割した機械学習による受身文の能動文への変換における格助詞の変換
- 大規模記事群からの数値固有表現情報のテキストマイニング可視化システム(ツール・システム)
- 大規模記事群からの数値情報に関わるテキストマイニング・可視化
- E-012 大規模記事群からの数値固有表現情報のテキストマイニング可視化(E分野:自然言語・音声・音楽)
- LE_005 受け身文の能動文への変換における機械学習を用いた格助詞の変換に関する実験(E分野:自然言語)
- LE_001 テキストからの主要数値ペア群の抽出とそのグラフ化(E分野:自然言語)
- 事態の捉え方に関する副詞辞書の構築
- 日本語発話文における敬語の誤用を指摘するシステムの開発
- MuSTデータを利用した自動動向調査システムの開発(情報可視化,テキスト情報の要約と掲示に関わる自然言語処理シンポジウム及び一般)
- 用例に基づく手法と機械学習モデルの組合せによる訳語選択
- 表層表現に着目した自由回答アンケートの意図に基づく自動分類
- 対訳コーパスを利用したBerkeley FrameNetからの日本語Lexical Unitsの半自動的発見手法
- 概念辞書によるシステマティックなイノベーション支援に向けて (データによる分析と評価)
- 属性語の Web 文書からの自動発見と人手評価のための基準
- Wikipedia の記事構造からの上位下位関係抽出
- 5J-2 Wikipediaの階層構造を知識源とする上位下位関係の自動獲得(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- Web からの属性情報記述ページの発見
- メールの文章における段落間の接続の強さの推定(コミュニケーション支援(テーマセッション3))
- Web サイトからの盗作の自動検出システム
- 機械学習手法を用いた日本語格解析 : 教師信号借用型と非借用型, さらには併用型
- 機械学習手法を用いた日本語格解析 : 教師信号借用型と非借用型, さらには併用型
- 複合動詞と主体化に関する考察--複合動詞「〜づける」の分析を通して
- 論文アブストラクトから原子分子の状態の情報を検出,抽出する方法の研究
- 質問応答システムの現状と展望
- 参加者から見たNTCIR(NTCIR : 情報アクセスに関わるテキスト処理技術の評価ワークショップ)
- diffを用いた言語処理 : 便利な差分検出ツールmdiffの利用
- LF-004 自動言い換え技術を利用した三つの英語学習支援システム(F. 人工知能)
- 受け身/使役文の能動文への変換における機械学習を用いた格助詞の変換
- 機械学習を用いたタイ語の品詞タグづけ
- diffと言語処理
- 頻度に基づく正の例からの負の例の予測 : 日本語表現の誤り検出と外の関係の文の自動抽出
- diffと言語処理
- 頻度に基づく正の例からの負の例の予測 : 日本語表記の誤り検出と外の関係の文の自動抽出
- AS-6-1 発話文の敬語の誤用を指摘するシステム : プロトタイプの開発(AS-6. 円滑なコミュニケーションの解明へのアプローチ, 基礎・境界)
- 複数の辞書の定義文の照合に基づく同義表現の自動獲得
- 単語分布類似度を用いた類推による単語間の意味的関係獲得法
- 機械学習を用いたタイ語の品詞タグづけ
- A-15-15 柔軟な判定を行う日本語敬語誤用判定システムの開発(A-15.ヒューマン情報処理,一般セッション)
- 日本語の敬語誤用判定システム--判定ルールの妥当性の程度の数値化による柔軟な判定
- Web時代の音声・言語技術
- 言い換えの統一的モデル : 尺度に基づく変形の利用
- 翻訳メモリとコーパスを用いた学習に基づく訳語選択
- SENSEVAL2J辞書タスクでのCRLの取り組み
- 種々の機械学習手法を用いた多義解消実験
- Co-STAR:上位下位関係獲得のための共訓練アルゴリズム
- 分布類似度とWikipediaから獲得した構造情報を利用した上位下位関係獲得
- 大規模分布類似度計算のためのベイズ手法を用いた新しい類似尺度
- 言語横断共訓練による単語間の上位下位関係の獲得
- A-13-6 心的状態を考慮したテキスト対話からの情緒推定(A-13.思考と言語,一般セッション)
- Wikipedia を利用した上位下位関係の詳細化
- A-13-7 仮教師データと能動学習を用いた文抽出による発想支援(A-13.思考と言語,一般セッション)
- 名詞の類似表現拡張に基づくオープンドメイン音声質問応答システム用言語モデルの構築
- E-015 機械学習を用いた段落の順序推定実験(E分野:自然言語・音声・音楽)