Webからの情報抽出・検索システムにおける全文検索(Webマイニング)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
スポンサーリンク
概要
- 論文の詳細を見る
本稿で報告するシステムは、Webを情報ソースとして文書検索を行い、検索された文書から抽出された人名などの情報をランキングして提示する。このシステムの文書検索について、Webページを情報ソースとすることと、検索結果が情報の抽出・検索に用いられることに着目した開発を行った。本報告の文書検索では評価式のベースとしてOKAPIを用い、1)tfの正規化に単語の繰り返し易さとしてcf/dfを使うことと、2)文書の評価値に記事数を反映するものとして単語の種類数を反映させる試みを行った。これらについて東京大学殿のホームページを対象にした10語〜100語の入力文に対する人名検索の精度を評価した結果、長文の入力における精度低下の軽減が認められた。
- 一般社団法人情報処理学会の論文
- 2004-09-16
著者
-
濱口 佳孝
沖電気工業株式会社研究開発センタ
-
井佐原 均
独立行政法人情報通信研究機構 知識創成コミュニケーション研究センター
-
井佐原 均
独立行政法人 情報通信研究機構
-
井佐原 均
独立行政法人情報通信研究機構
-
池野 篤司
沖電気工業株式会社研究開発本部
-
濱口 佳孝
沖電気工業
-
池野 篤司
沖電気工業株式会社
-
池野 篤司
沖電気工業株式会社研究開発本部:神戸大学大学院自然科学研究科
-
池野 篤司
沖電気工業(株)関西総合研究所
関連論文
- E-021 大規模単言語コーパスの利用による機械翻訳用対訳辞書の新規連語獲得性能の向上(E分野:自然言語・音声・音楽)
- 日本語発話文の敬語の誤用を指摘するシステム(人工知能)
- 効率的な頻出データ計数アルゴリズムLossy Countingの拡張(トラヒック)
- 言語音を解読する神経機構 : 音のどこに解読の手がかりは書き込まれるか?
- 有線および無線リンク混在ネットワークにおけるRTCP XR観測に基づくネットワーク品質劣化検出 (情報ネットワーク)
- NGNにおけるネットワーク異常検出のためのRTPトラフィック予測手法(トラヒック,セッション管理,P2P通信,オーバーレイネットワーク,性能解析・評価,信頼性及び一般)
- 大規模トラフィックの解析技術 (ネットワーク特集)
- 話し言葉における引用節・挿入節の自動認定および係り受け解析への応用
- 3D-1 言語資源メタデータデータベースSHACHIの構築と利用(自然言語処理,一般セッション,人工知能と認知科学)
- 日本語話し言葉コーパスとその構築技術 (ヒューマンコミュニケーション特集) -- (自然言語)
- 話し言葉における引用節の自動認定および引用符の付与(第8回音声言語シンポジウム)
- 話し言葉における引用節の自動認定および引用符の付与(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- 話し言葉における引用節の自動認定および引用符の付与
- 学習者発話におけるintelligibilityに関する一考察(言語の学習・教育)
- AS-4-3 敬語の誤用を指摘するシステム : GUIの実装(AS-4.円滑なコミュニケーション,シンポジウム)
- LE-002 テンス・アスペクト・モダリティの翻訳における機械翻訳システムの誤りの調査(E分野:自然言語)
- テキストにおける首尾一貫性(coherence)と文脈表現構造
- 実験的な知識に基づく文脈表現構造からの英語テキスト生成
- シリーズ型質問文に対して単純結合法を利用した逓減的加点質問応答システム
- 階層構造データ列の簡易な高速検索アルゴリズム(重要語抽出・検索・文書分類)
- 階層構造データ列の簡易な高速検索アルゴリズム(重要語抽出・検索・文書分類)
- 言語学的考察および機械学習手法に基づく意見分析支援--要求意図を取り出す一手法 (2005年情報学シンポジウム講演論文集--社会システムを支える情報学) -- (セッション5:知識獲得・記述の支援)
- 効率的な語彙獲得のための英文読解教材の作成
- フェイスシートとの関係を利用した自由回答アンケートの分析(解析)
- フェイスシートとの関係を利用した自由回答アンケートの分析(解析)
- 英文読解のためのコースウェアの作成(教育)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- 英文読解のためのコースウェアの作成(教育)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- 英語教育のための分野特徴単語の選定尺度の比較
- 自由回答アンケートにおける要求意図判定基準
- 質問応答システムにおける逓減加点法に基づく複数記事情報の利用(質問応答・文書分類・自動収集)
- 英文読解のためのコースウェアの作成
- 複数尺度の統計的統合法とその専門用語抽出への応用(オントロジ・抽出(2))(セマンティックウェブと自然言語処理その他一般)
- 複数尺度の統計的統合法とその専門用語抽出への応用
- 日英新聞の記事および文を対応付けるための高信頼性尺度
- 事物間関係の推定における文書内頻度を考慮した補完類似度の性能評価
- SENSEVAL2J 辞書タスクでのCRLの取り組み : 日本語単語の多義性解消における種々の機械学習手法と素性の比較
- コーパスからの形容詞概念階層の構築と評価 : 実データによる形容詞オントロジーの構築にむけて
- 形容詞概念抽出のための統語パタン分析 : コーパスからの日本語語彙オントロジーの構築をめざして(言語理解とオントロジーシンポジウム)
- コーパスからの単語間の意味関係の獲得とその応用 (ヒューマンコミュニケーション特集) -- (自然言語)
- 出現状況の包含関係による語彙の階層構造の構築(知識処理,情報処理技術のフロンティア)
- F-004 出現状況の包含関係を利用した語彙の階層関係の自動構築(F.人工知能)
- 共起情報に基づく呼応関係自動抽出法の検討(抽出(1))
- 日本語名詞の意味マップの自己組織化
- 有線および無線リンク混在ネットワークにおけるRTCP XR観測に基づくネットワーク品質劣化検出(トラヒック計測・異常検知・一般)
- 情報抽出表とソートグラフを利用したテキストマイニングシステム Simpleminer
- 入力文の格助詞ごとに学習データを分割した機械学習による受身文の能動文への変換における格助詞の変換
- 大規模記事群からの数値固有表現情報のテキストマイニング可視化システム(ツール・システム)
- 大規模記事群からの数値情報に関わるテキストマイニング・可視化
- E-012 大規模記事群からの数値固有表現情報のテキストマイニング可視化(E分野:自然言語・音声・音楽)
- 非階層関係にある関連語集合の抽出と発想支援への適用
- E_003 検索に有効な知識の自動獲得 : 質問拡張を超えて(E分野:自然言語)
- LE_005 受け身文の能動文への変換における機械学習を用いた格助詞の変換に関する実験(E分野:自然言語)
- LE_001 テキストからの主要数値ペア群の抽出とそのグラフ化(E分野:自然言語)
- 事態の捉え方に関する副詞辞書の構築
- 日本語発話文における敬語の誤用を指摘するシステムの開発
- Web文書集合からの専門用語獲得(自然言語,情報処理技術のフロンティア)
- MuSTデータを利用した自動動向調査システムの開発(情報可視化,テキスト情報の要約と掲示に関わる自然言語処理シンポジウム及び一般)
- グループ・ディスカッションの相互行為過程の評価と分析のための指標 : フォーカス・グループ・インタビューデータの分析から
- 話し言葉における引用節の自動認定および引用符の付与(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- エラータグ付き学習者コーパスから見る日本人の英語習得過程の分析(言語の学習・教育)
- 通信・放送機構 適合型コミュニケーション技術の研究開発
- 話し言葉の接続詞「で」の特徴(自然言語)
- 用例に基づく手法と機械学習モデルの組合せによる訳語選択
- 表層表現に着目した自由回答アンケートの意図に基づく自動分類
- 対話テキストにおける意味と談話 : 複層意味フレーム分析による試み(深い言語処理のためのフレームワーク)
- 意味役割名と意味型名の区別による新しい概念分類の可能性 : 意味役割の一般理論はシソーラスを救う?(推論・意味)
- 意味役割名と意味型名の区別による新しい概念分類の可能性 : 意味役割の一般理論はシソーラスを救う?(推論・意味)
- 意味フレームを用いた知識構造の言語への効果的な結びつけ(知識獲得,知識表現,生成)
- 意味フレームを用いた知識構造の言語への効果的な結びつけ(知識獲得,知識表現,生成)
- 科学技術振興調整費開放的融合研究推進制度による「話し言葉の言語的・パラ言語的構造の解明に基づく『話し言葉工学』の構築」プロジェクト
- 未定義語を含む文の多段階構文解析
- RWCにおける分類コード付きテキストデータベースの開発
- 日英特許コーパスからの専門用語対訳辞書の自動獲得
- 新聞記事中の事故・事件名の自動抽出(抽出(2))
- 新聞記事中の事故・事件名の自動抽出(抽出(2))
- 異なるコーパスにおける重要文抽出の結果と素性の分析
- 属性影響語を用いた専門用語判別(専門用語)
- 属性影響語を用いた専門用語判別(専門用語)
- 統計的に獲得された用語への属性ラベル付与(Web情報処理)
- 検索支援に向けたWeb文書集合からの用語獲得(Web情報処理)
- 統計的に獲得された用語への属性ラベル付与(Web情報処理)
- 検索支援に向けたWeb文書集合からの用語獲得(Web情報処理)
- E-41 出現頻度を考慮した補完類似度による事象間関係の推定(知識獲得,E.自然言語・文書)
- Webからの情報抽出・検索システムにおける全文検索(Webマイニング)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- Webからの情報抽出・検索システムにおける全文検索(Webマイニング)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- D-002 値の範囲を検出可能な数値情報抽出(D分野:データベース)
- 単眼動画像からパノラマステレオ画像の生成
- 解説 顔画像情報による音声認識性能の改善--音声認識の周囲雑音による認識率低下の抑制
- 顔画像情報と音声情報の統合による発話認識
- 知的ニュースリーダにおける表層的話題関連性の抽出
- 日英新聞記事の対応付けと精度評価
- 統計的手法による分野非依存のテキスト分割
- 情報検索パッケージの実装
- 自動要約のための文重要度の比較
- An Approach to Abstract Generation
- 文脈理解のための拡張シソーラス知識表現法
- LF-004 自動言い換え技術を利用した三つの英語学習支援システム(F. 人工知能)
- 受け身/使役文の能動文への変換における機械学習を用いた格助詞の変換
- メール要点抽出&転送システム/早解メール (マルチメディアメッセージング特集)
- 有線および無線リンク混在ネットワークにおけるRTCP XR観測に基づくネットワーク品質劣化検出