空間分割型CL-LSIによる大規模言語横断情報検索(<特集>情報の検索とテストコレクション)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,Latent Semantic Indexing(LSI)方式による言語横断情報検索において問題となる,大規模な対訳コーパスの利用方法について考察する.大規模対訳コーパスを用いて単語空間を作成しようとすると,LSIの要である単語-文書頻度行列の特異値分解が記憶装置の制約で難しくなるとともに,語の訳の曖昧性が非常に大きくなるという問題がある.そこで,文書の類似度に従って,対訳コーパスを適切な複数の部分対訳コーパスに分割し,各々の単語空間を作成する手法を提案する.この方法では,検索対象の文書を,最も類似した部分対訳コーパスから構成された単語空間に配置することによって,訳語の曖昧性を減少させる.検索時には,検索質問をそれぞれの単語空間に配置し,文書ベクトルとの類似度計算を行う.このときに,単語空間ごとの未知語に対する重み付けの補正が重要であり,検索精度が10%〜20%程度向上することを示す.
- 社団法人情報処理学会の論文
- 2002-03-15
著者
-
國分 智晴
(株)東芝研究開発センター
-
森 辰則
横浜国立大学 工学部 電子情報学科
-
森 辰則
横浜国立大学大学院環境情報研究院
-
森 辰則
横浜国立大学
-
國分 智晴
株式会社東芝研究開発センター知識メディアラボラトリー
-
田中 崇
横浜国立大学大学院工学研究科電子情報工学専攻
-
國分 智晴
(株)東芝研究開発センター知識メディアラボラトリー
-
國分 智晴
東芝 研開セ
-
森 辰則
横浜国立大学大学院環境情報研究院社会環境と情報部門
関連論文
- XMLデータベースの自然言語検索技術 (特集 日本語ワードプロセッサIEEEマイルストーン認定記念 自然言語処理技術)
- 質問応答システムの正解順位とユーザ満足率の関係について(言い換え・質問応答)
- 固有表現抽出と回答タイプ体系が質問応答システムの性能に与える影響(自然言語処理)
- 質問応答と,日本語固有表現抽出および固有表現体系の関係についての考察(抽出)
- 複数マニュアルの自動ハイパーテキスト化における類似度計算手法について
- 情報信憑性判断のための調停要約の提案
- 情報信憑性判断のための自動要約に向けた人手による要約作成実験とその分析(機械翻訳・要約・評判分析)
- ロバストな質問応答システム構築のための質問文解析過程に関する一考察(言語理解とオントロジーシンポジウム)
- ロバストな質問応答システム構築のための質問文解析過程に関する一考察
- 自動ターム抽出における重み付け方法の比較
- 日本語マニュアルの内容検索システム
- 注釈事例参照を用いた複数注釈者による評判情報コーパスの作成
- 情報検索手法を利用した関連マニュアル群のハイパーテキスト化 (新しいシステムソフトウェア)
- 電子化マニュアルにおける自動ハイパーテキスト化手法
- NTCIRにおける質問応答技術の評価と今後の展望(NTCIR特別セッション)
- Basic Elementを用いた質問応答の自動評価(情報検索・情報抽出・QA)
- 質問応答システムにおける最良優先探索制御
- 係り受けの制約と優先規則に基づく数量表現抽出
- 農林関連文書からの情報抽出とその応用
- 地方議員マッチングシステムのための質問表現の検討
- 優先順位型質問応答の解スコア分布に基づくリスト型質問応答
- 製品レビュー文に基づく評判情報コーパスの作成とその特徴の分析(機械翻訳・要約・評判分析)
- 機械学習を用いた二段階洗練化手法による人物説明記述の抽出(情報抽出(テーマセッション2))
- ネットオークションの出品情報文書からの属性抽出の精度向上(情報抽出(テーマセッション2))
- 4ZK-6 Web文書を情報源とするnon-factoid型質問応答(情報爆発時代におけるテキストデータ処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 4ZK-5 Web質問応答における複数検索エンジンの組合せによる精度向上(情報爆発時代におけるテキストデータ処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 複数のWeb検索エンジンを用いたfactoid型質問応答(多言語処理・質問応答)
- 自然言語処理(NL)研究会(研究会千夜一夜)
- ネットオークションにおける属性検索のための出品情報文書からの属性抽出
- ネットオークションにおける属性検索のための出品情報文書からの属性抽出(用語・情報抽出)
- 末広かり
- 人手による評判情報注釈付けにおける揺れの分析と注釈付け支援ツール(意見・評判情報処理)
- 画像や地図を用いて回答できる質問応答システム(インタフェースと応用)
- 画像や地図を用いて回答できる質問応答システム
- 機械翻訳と翻字を併用した英日言語横断質問応答(質問応答)
- 一問一答型質問応答を利用した関連質問群に対する質問応答(質問応答)
- 優先順位型質問応答の解スコア分布に基づくリスト型質問応答(質問応答)
- 機械翻訳と翻字を併用した英日言語横断質問応答
- 一問一答型質問応答を利用した関連質問群に対する質問応答
- 複数の質問に焦点を当てた複数文書要約手法(セグメンテーション・要約)
- 係り受けの2部グラフと共起関係を利用した同義表現抽出(抽出(2))
- 出現頻度と連接頻度に基づく専門用語抽出
- 情報利得比に基づく語の重要度とMMRの統合による複数文書要約
- 検索結果表示向け文書要約における情報利得比に基づく語の重要度計算
- 自然言語処理 特集号「自動要約」
- 空間分割型CL-LSIによる大規模言語横断情報検索(情報の検索とテストコレクション)
- 空間分割型CL-LSIによる大規模言語横断情報検索
- 機械学習と人手作成のパタンを組み合わせた固有表現抽出
- NTCIRにおける質問応答技術の評価と今後の展望(NTCIR特別セッション)
- Basic Elementを用いた質問応答の自動評価(情報検索・情報抽出・QA)
- 質問応答システムの正解順位とユーザ満足率の関係について(言い換え・質問応答)
- 機械学習を用いた二段階洗練化手法による人物説明記述の抽出(情報抽出(テーマセッション2))
- ネットオークションの出品情報文書からの属性抽出の精度向上(情報抽出(テーマセッション2))
- 5H-3 投稿情報に基づくビジネスメールの話題分類(自然言語処理,一般セッション,人工知能と認知科学)
- 日本語マニュアル文におけるアスペクト辞の意味について
- 係り受けの制約と優先規則に基づく数量表現抽出
- 農林関連文書からの情報抽出とその応用
- 解説 文書から情報抽出と固有表現抽出--文書から特定情報を切り出す
- 情報信憑性判断のための直接調停要約の自動生成手法
- 2段階抽出手法によるオークションの出品情報からの属性情報抽出
- 地方議会会議録における政治的カテゴリの自動推定手法の提案
- 優先順位型質問応答の解スコア分布に基づくリスト型質問応答(質問応答)
- 優先順位型質問応答の解スコア分布に基づくリスト型質問応答
- 自然な構造の階層的知識
- 自己組織化マップを利用したマニュアルブラウザ
- 複数マニュアルの自動ハイパーテキスト化における類似度計算手法について
- 出現頻度と連接頻度に基づく専門用語抽出
- 出現頻度と連接頻度に基づく専門用語抽出
- 実世界における多戦略学習・創発計算プロジェクト(総合報告)
- 日本語マニュアルの内容検索システム
- 日本語談話における終助詞の意味論
- 定義パタンの学習による自動ハイパーテキスト化ツール
- 重要語抽出に基づく日本語マニュアルハイパーテキスト化ツール
- 談話の結束性を考慮した比喩理解過程の解析(2) : 結束性要因充足としての比喩理解
- 談話の結束性を考慮した比喩理解過程の解析(1) : 結束性要因の抽出
- 日本語の概言の意味論
- 用語説明システムにおける比喩説明文の生成
- 知的マニュアルシステムにおける比喩説明文の生成
- 「分かり易さ」という付加価値に思うこと
- 機械学習を用いた感性語による画像検索
- 質問・回答事例を利用したnon-factoid型質問応答に対する確率的言語モデルの導入
- 質問・回答事例を利用したnon-factoid型質問応答に対する確率的言語モデルの導入
- 注釈事例参照を用いた複数注釈者による評判情報コーパスの作成
- 日本語マニュアル文における名詞間の連接情報を用いたハイパーテキスト化のための索引語の抽出
- 日本語マニュアル文における名詞間の連接情報を用いたハイパーテキスト化のための索引語の抽出
- 日本語マニュアル文における名詞間の連接情報を用いた重要語の抽出
- 語の連接の多様性に基づく日本語マニュアルからの重要語抽出
- 日本語マニュアル文における名詞間の連接情報を用いた重要語の抽出
- 地方議員マッチングシステムにおける能動的質問のための質問生成手法
- 機械翻訳と翻字を併用した英日言語横断質問応答(質問応答)
- 一問一答型質問応答を利用した関連質問群に対する質問応答(質問応答)
- 機械学習と人手作成のパタンを組み合わせた固有表現抽出
- 条件表現による日本語マニュアル文のゼロ主語同定
- 動作主情報を利用したマニュアルブラウザ
- 困ったときに役立つ電子化マニュアルを目指して
- 言語表現のもつ性質に基づく日本語マニュアルにおけるゼロ代名詞照応
- 条件表現の語用論的性質によるゼロ主語同定
- k-NN法による学習を用いた感性語による画像検索
- 情報信憑性判断支援のための直接調停要約生成手法(自然言語処理)
- 不具合事例文からの製品・部品を示す語の抽出 : 語の実体性による分類(自然言語処理,学生論文)