日本語新聞記事を対象とした関連記事検索の一手法
スポンサーリンク
概要
- 論文の詳細を見る
現在大量の機械可読文章(コーパス)が存在している.中でも,新聞は現代社会の大量情報の流通媒体であるため,検索需要が多い.これらの新聞記事の中から必要とする情報を検索するために,従来はキーワードや日付を組み合わせた検索式による検索が主に用いられてきた.いま,ある検索式を用いて必要とする情報を含む記事を見つけることができたとする.さらにその記事に関連する記事の検索を考えると,関連記事を機械的に検索することはできないので,再度,検索式を用いて検索する.この場合,必要としている情報を有する記事だけに適切に絞りこむには限界がある.また適当な検索式そのものを作成できない場合もある.そこで,本研究では着目している記事に関連する記事を効率良く検索すること,ならびに関連性を基準として記事を順序付けするための一手法を提案する.関連した研究としては[1][2]などの類似用例検索があるが,新聞記事のような大量のテキストを対象とした研究はなされていない.また大量のテキストを対象としたテキスト分類の研究として[3][4]などがある.類似テキスト検索の手法としてはいくつかのアプローチがあるが,[1][2]では共にシソーラスを用いている.また,[3]においてはシソーラスを使用してテキストの特徴ベクトルを作成し,関連性の指標としている.[4]においてはテキスト分類を2つの方法,シソーラスを用いた特徴ベクトルと単語間共起による特徴ベクトルを用いてそれぞれ実験している.その結果,精度の点においてシソーラスよりも単語間共起を用いた場合のほうが,良い結果が得られたと報告されている.本研究では,新聞記事における名詞に着目し,名詞を中心とした単語共起頻度を用いて記事間の関連度を評価する一手法を考案し実験を行った.
- 一般社団法人情報処理学会の論文
- 1996-03-06
著者
-
増山 繁
豊橋技術科学大学知識情報工学系
-
山本 和英
Atr音声言語コミュニケーション研究所
-
大竹 清敬
Atr音声言語コミュニケーション研究所
-
増山 繁
豊橋技術科学大学
-
大竹 清敬
豊橋技術科学大学知識情報工学系
-
山本 和英
豊橋技術科学大学知識情報工学系
関連論文
- 係り元文節からの相対的な距離を反映した統計的日本語係り受け解析(自然言語処理)
- Cross-Bootstrapping:特許文書からの課題・効果表現対の自動抽出手法(テキストマイニング,情報爆発論文)
- 公開特許公報の特許権成立の成否に関するテキスト情報を用いた推定手法の基礎的検討(自然言語処理)
- Techniques to accelerate request processing for Byzantine fault tolerance (コンピュテーション)
- 新聞記事中の文が因果関係を含むか否かの判定 (言語理解とコミュニケーション)
- 改良taintモデルに基づくオブジェクト指向言語を用いたアプリケーション開発
- オブジェクトごとにセキュリティ制御可能なtaintモデル
- 1-B-3 新幹線の終端駅に着目した列車発着スケジューリング(輸送・交通)
- 経済新聞記事内容の個々の企業におけるインパクトの判定(文書分類・評判分析)
- 可読性の向上を目的とした片仮名表記外来語の換言知識獲得(自然言語処理)
- 日本語語彙大系と日本語ウィキペディアにおける知識の自動結合による汎用オントロジー構築手法(単語・事象・オントロジー)
- ニュース番組における字幕生成のための文内短縮による要約
- 結束チャートを用いた日本語文章の語彙的結束構造の解析
- 係り元文節からの相対的な距離を反映した統計的日本語係り受け解析
- 2-A-4 企業の業績発表記事から抽出した業績要因への極性付与(金融工学(3))
- 完全2部グラフK_においてp+q+1本以下の辺を持つ連結全域部分グラフの個数に関する計算式
- グラフK_n-e、k_n・eにおいてn+1本以下の辺を持つ連結全域部分グラフの個数に関する計算式
- 完全グラフK_nにおいてn+1本以下の辺を持つ連結全域部分グラフの個数に関する計算式
- 節点数がn、辺数が「(3-2√)n^2+n-(7-2√)/(2√)」以上の単純無向グラフにおける連結全域部分グラフの個数系列の単峰性に関する証明
- 全節点間のネットワーク信頼性多項式における係数の性質について
- On the Importance of Each Edge with Respect to Minimum spanning Trees in a Weighted Graph
- On the Importance of Each Edge Using Its Traffic along Shortest Paths in a Network
- ネットワークにおける辺の重要度の評価について(計算量理論)
- 確率付きグラフ上の点素な s-t 路の期待最大本数の計算問題
- 辺の長さを持つグラフに対する各辺を通る最短路本数の計算問題
- 確率付きグラフ上の辺素な s-t 路の最大本数の期待値計算問題の計算量について
- 確率付グラフ上の辺素なs-t路の期待最大本数の下界値
- A Lower Bound of the Expected Maximum Number of Edge-disjoint s-t Paths on Probabilistic Graphs
- Computing the Expected Maximum Number of Vertex-disjoint s-t Paths in a Probabilistic Basically Series-parallel Digraph
- A Lower Bound of the Expected Maximum Number of Vertex-disjoint s-t Paths on Probabilistic Graphs
- 確率付グラフ上の点素なs-t Disjoint Pathsの期待最大本数の計算問題(理論計算機科学とその周辺)
- 確率付グラフ上の2節点間の辺素な路の最大本数の確率分布の計算に関する一考察(組合せ・グラフ・ネットワーク)
- 確率付グラフ上の点素なs-t路の最大本数の期待値計算問題
- Cross-Bootstrapping : 特許文書からの課題・効果表現対の自動抽出手法
- DS-1-1 有向閉路型走行経路を用いたAGVシステムにおける総移動距離を最小化する確率的オンラインアルゴリズムに関する競合比解析(DS-1.計算理論における学生の研究パワー:COMP学生シンポジウム,シンポジウムセッション)
- Wikipediaと汎用シソーラスを用いた汎用オントロジー構築手法
- 梯子型走行経路を用いたAGVシステムにおけるデッドロック回復問題の計算複雑さ
- An Optimal Parallel Algorithm for Hinge Vertex Probrem of a Circular-Arc Graph
- 1-D-7 Circular Permutation Graphの関節点,橋検出アルゴリズム(離散・組合せ最適化(3))
- 1-D-2 台形グラフにおけるMFVS問題のための効率的アルゴリズム(離散・組合せ最適化(1))
- 2-D-22 ラダー型走行経路を用いたAGVシステムにおけるデッドロック回復問題の計算複雑さの解析(物流)
- テキストマイニング技術を用いた判例文書分類・情報抽出--判例統計作成のために
- 語の意味分類の出現傾向を考慮したキーワード抽出の試み
- 分類の出現傾向を考慮したキーワード抽出
- Wikipediaと汎用シソーラスを用いた汎用オントロジー構築手法(人工知能,データマイニング)
- 2-E-1 AGVシステムにおけるオンライン搬送スケジューリングに対する完了時間和最小化オンラインアルゴリズムの競合比解析(離散最適化(1))
- 2-E-10 Circular Permutation Graph上の要節点導出のための最適並列アルゴリズム(離散最適化(3))
- 決定的な解析と相対的な比較による解析の二側面を持つ日本語係り受け解析
- 特許文書からのブートストラップ手法を用いた課題・効果表現対の抽出
- Unrestricted $LR(k)$ Grammars and its Parser, where $k=0,1$ (New Developments of Theory of Computation and Algorithms)
- 確率一般化LR構文解析の先読み方式変更による拡張 (計算機科学の基礎理論 : 21世紀の計算パラダイムを目指して)
- LC文法とその構文解析の拡張(情報基礎理論ワークショップ(LAシンポジウム)論文小特集)
- $LC$文法とその構文解析法の拡張について (計算モデルとアルゴリズム)
- LC構文解析法を拡張した構文解析法について
- LR構文解析の並列アルゴリズム
- 単純順位文法に対する並列構文解析アルゴリズム
- unrestricted LR 文法及び unrestricted LR 構文解析法の提案(計算モデルと計算の複雑さに関する研究)
- LR属性を拡張したR-L属性の提案
- LR構文解析の並列アルゴリズムについて(計算量理論)
- 属性文法に基づく意味解析の並列アルゴリズム
- L属性文法に基づく意味解析の並列アルゴリズムの開発
- 重要文抽出, 自由作成要約に対応した新聞記事要約システムYELLOW
- ニュース文の音声要約のための韻律情報の利用
- 語順を考慮した格フレームの提案と獲得手法
- 非対訳コーパスを用いた日本語複合名詞の英訳語推定
- 重複部・冗長部削除による複数記事要約手法
- 名詞の連接情報を用いた関連文書検索手法
- 名詞を中心とした連接に着目した新聞の関連記事検索手法
- 日本語新聞記事を対象とした関連記事検索の一手法
- Online Passive-Aggressive Algorithmを用いたクラスタリング
- 係り先候補の相対的な距離を反映した統計的日本語係り受け解析(評価表現・構文解析)
- Weblog内のリンクに対する感情推定の試み : Webコミュニティ発見法改善の基礎として(WWW,テキスト情報の要約と掲示に関わる自然言語処理シンポジウム及び一般)
- 梯子型走行経路を用いたAGVシステムにおけるデッドロック回復問題の計算複雑さ
- 特許文書からのブートストラップ手法を用いた課題・効果表現対の抽出
- 特許明細書からの技術課題情報の抽出
- 有向グラフにおけるある種の線形配列の順序付け手法 : スーパースケーラ プロセッサ上の並列度非依存なスケジューリング(組み合わせ最適化(1))
- 語彙的結束性に着目した文章抄録法の提案
- 結束チャートの自動生成と日本語文章の語彙的結束構造解析への応用
- 結束チャートの自動生成と日本語文章の語彙的結束構造解析への応用
- Byzantine Agreement on the Order of Processing Received Requests is Solvable Deterministically in Asynchronous Systems
- 係り受け関係を用いた重複表現削除
- 動詞型連体修飾表現の"N_1のN_2"への言い換え
- テレビニュース番組の字幕作成のための重複部削除による要約
- 要約のための連体修飾節の"AのB"への言い換え
- フラクタルブロック符号化の高速化 : 放送方式,画像処理・コンピュータビジョン,映像表現,画像通信システム,画像応用
- フラクタルブロック符号化の高速化
- 重要文抽出,自由作成要約に対応した新聞記事要約システム YELLOW(情報の検索とテストコレクション)
- 学生レポート採点支援のためのレポート類似部分発見手法(一般,テキスト情報の要約と掲示に関わる自然言語処理シンポジウム及び一般)
- 冗長度削減による関連新聞記事の要約
- 参加者から見たNTCIR(NTCIR : 情報アクセスに関わるテキスト処理技術の評価ワークショップ)
- モバイルエージェント実行計画問題について (計算機科学基礎理論とその応用)
- 負荷分散のための非同期分散分枝限定法
- 単方向リング型AGVシステムにおける搬送スケジューリング(スケジューリング(2))
- 分散型のAGVシステムにおける情報受信範囲の理論的解析
- 分散型AGVシステムにおける情報受信範囲の理論的解析(ネットワーク(2))
- AGV (Automated Guided Vehicle) システムにおける最悪移動完了時間の理論的解析
- 分散型のAGV(Automated Guided Vehicle)システムにおける情報受信範囲の理論的解析
- AGV(Automated Guided Vehicle)システムにおける許容台車数の理論的解析
- AGVシステムにおける最悪移動完了時間の理論的解析(組合せ最適化(2))
- AGVシステム中の許容台車数について