MIIDAS:情報の適合的選別による文書フィルタリング
スポンサーリンク
概要
- 論文の詳細を見る
我々は, 情報集配信サービスMIIDASにより, ユーザーに必要な様々な情報をフィルタリング, 分類・検索, 活用・発信するためのプラットフォームを提供することを目指している。本稿では, このうち, 我々が取り組んでいるテキスト情報に対するフィルタリングシステムの研究開発に関する報告を行なう。現在, 尤度の推定にベイズの定理を用いた単語ベースモデルによるフィルタリングシステムを実現し, 新聞記事情報を対象としたフィルタリングサービスを運用している。単語ベースモデルにおいて, 文書中に出現する全単語に対して単語空間を設定すると, 大量の文書情報を扱う場合に単語数の増加による単語空間の次元数の爆発という困難が生じる。このため, 単語空間の設定のための重要語の選別が不可欠となる。単語空間中で, 自立語以外の単語は単語自身が独立して意味を持たないため, 単語ベースモデルのための単語空間として適切ではない。さらに単語ベースモデルにおける単語空間の設定には, 以下の二つの問題がある。(1) 一般的な語義を持つ単語や語義の曖昧性を持つ単語は, 文脈に依存して語義や用法が変化する。単語ベース, モデルでは, これらの単語の文脈上の語義や用法の違いを区別することができないため, 語義によって異なる本来の統計分布とは異なる扱いとなる。これらの単語の単語空間を占める割合が高くなると, 尤度の推定におけるこれらの単語からの寄与により, 精度の低下が引き起こされる。(2) 日本語の文書に関しては形態素解析の語切り誤りにより, カテゴリを特定する寄与が大きい固有名詞や複合語などが分割されてしまうという問題がある。本稿では, 上記の二つの問題に対して(1)文書のカテゴリを特定する寄与の大きい単語のみを選別する方法, および(2)固有名詞の追加による分割された固有名詞の一単語としての取扱い, の方法を用いることにより, 上記の問題を解決したのでその方法と可能性について示す。
- 一般社団法人情報処理学会の論文
- 1997-09-24
著者
-
村木 一至
NEC 情報メディア研究所
-
村木 一至
Nec Corp.
-
奥村 明俊
NECメディア情報研究所
-
奥村 明俊
日本電気(株)c&cメディア研究所
-
石川 開
ATR音声翻訳通信研究所
-
村木 一至
日本電気(株)パーソナルソフトウエア事業部
-
奥村 明俊
NEC C&Cメディア研究所
-
石川 開
NEC C&Cメディア研究所
-
村木 一至
Nec C&cメディア研究所
関連論文
- C&Cの夢,自動通訳の実現に向けて : 受賞業績 携帯端末など組込み機器向け多言語自動音声翻訳システムの実用化技術の開発(平成20年度喜安記念業績賞紹介)
- TREC-7参加報告
- 英日翻訳システムを基にした多言語翻訳システムの構築
- 5 非制限話し言葉翻訳に関する最近の技術進展(多言語自動通訳技術の実現に向けて)
- 5W1H情報を利用する情報分類・ナビゲーション
- G_010 映像コンテンツと関連文書の連携によるシーン検索システム(G分野:音声・音楽)
- PIVOT E-J : 英語解析部の構成
- LG-003 携帯電話用プロセッサで動作する大語彙連続音声認識の並列処理(G分野:音声・音楽)
- 2D-2 携帯電話試作機上で動作する旅行会話向け自動通訳システムの開発(音声・音楽情報処理,一般セッション,人工知能と認知科学)
- テキストデ タを使った音声認識誤りの訂正
- マルチメディア要約 ビデオ要約向けの文認定手法 (リッチメディア・コンテンツ・マネジメント特集)
- 5W1H情報抽出・分類によるテキスト要約
- MIIDAS : 情報の選別とEasy Readingのためのエピソード
- MIIDAS:情報の適合的選別による文書フィルタリング
- MIIDAS : 情報の選別的共有のためのオントロジ構築とその増進的学習
- 5W1H分類・ナビゲーションによる情報活用プラットフォーム
- オントロジによる多次元情報集配信
- 日本語入力による英文作成支援インタフェース
- HMMの変分ベイズ学習によるテキスト文書の話題分割法(認識・理解・対話)
- HMMの変分ベイズ学習によるテキスト文書の話題分割法(認識・理解・対話)
- 文書参照/引用履歴を利用したノウハウ活用エージェント
- 冗長インデクスを用いた OCR テキスト検索システム
- 日本語入力による英文作成支援システム : 辞書学習
- 日本語入力による英文作成支援システム : 長文パターンによる翻訳
- 大規模データのセルフナビゲーショナルアクセス : SPIRAL Method
- 概念表現を用いた自動通訳システムINTERTALKER
- 解析木データベースを用いた音声認識誤り訂正手法
- FEP型英文作成支援ツールにおける対話的曖昧性解消方式
- FEP型英文作成支援ツール : 外国語情報発信の効果的インタフェース
- 新聞記事からの情報抽出と多言語インデックス付与
- キーワードと構文構造に基づくテキストからの情報抽出システム
- キーワードと構文構造に基づく情報抽出システムにおける文脈処理
- 辞書中の語義例文に基づく事例ベース動詞意味選択
- 辞書に事例を付記することによる訳語選択・意味選択機能の強化
- 電子化辞書管理のための自然言語インターフェース : 質問文コーパスの機能分類
- 日本語文構造分類ツール
- 商用機械翻訳ユーザ辞書の共通フォーマット設定に向けて (第54回全国大会 (平成9年前期 於 : 千葉工大) 大会優秀賞受賞論文 (11件)
- 機械翻訳ユーザ辞書データ流通のための共通フォーマット : アジア太平洋機械翻訳協会の活動報告
- 商用機械翻訳ユーザ辞書の共通フォーマット設定に向けて
- 話し言葉認識に向けた基本技術と応用(抽出と解析)
- 話し言葉認識に向けた基本技術と応用(抽出と解析)
- パーシング制御における多視点ヒューリスティックスの取扱い
- 日本語入力による英文作成支援システム : 仮名漢字変換から仮名英語変換へ
- 英語の副詞のシンタクス
- 自然言語研究開発支援システム
- 機械翻訳技術による外国語学習支援
- PIVOT : 英語生成における主語選択と用言選択
- 日本語文章からの文章骨格の抽出
- 文章執筆推敲支援システムIdeaPの概要
- 日英双方向自動通訳システムINTERTALKER
- 自動通訳システム (音声ヒューマンインタフェース特集)
- 連続音声認識からの概念表現の作成
- OCRの認識誤り訂正における学習の効果
- 機械翻訳ユーザ辞書データ流通・相互利用のための共通フォーマット設定活動 : アジア太平洋機械翻訳協会の活動報告
- 日本語助数詞の分析 : 名詞と助数詞の統語的差異
- 程度表現の意味モデル
- 日本語助数詞の分析
- 意味表現における関係概念の扱い
- 機械翻訳システムPIVOTの中間言語
- 翻訳機能付きワープロ : 不安と疲れを感じさせないインタフェース
- PIVOT : ソフトウェアの構成と機能
- 談話指標とテキスト長を用いた講演音声とプレゼンテーション資料の対応付け
- 講演音声とプレゼンテーション資料の対応付けによる講演検索
- 2P-5 コンパラブルコーパスによるキュエリタームの拡張とクロス言語検索
- 概念説明文の文体と翻訳時の同義性確保の指針
- 複数言語で記述した概念説明文の開発手法
- 機械翻訳システムPIVOTにおける格パターンの処理
- 機械翻訳システムPIVOTの日本語格フレームモデル
- 機械翻訳システムPIVOTにおける格パターン選択について
- 文書作成過程の自動蓄積とその文章化
- 3P-13 5W1H情報の在否により結果を分類する情報検索システム
- コンパラブルコーパスと対訳辞書による日英クロス言語検索
- 非定形文書中の日程情報を自動配信するスケジュールリマインダ
- 情報配信オントロジおよび5W1H分類による情報活用環境の構築
- コンパラブルコーパスによる単語共起頻度を用いたクロス言語検索
- ノウハウ共有エージェントによる文書作成支援
- テレビニュース番組電子化原稿を題材とした自動要約手法の大規模評価
- PIVOT : 日本語接辞解析
- 機械翻訳システム
- 英語文型選択の並列化について
- 文脈理解 : 文脈理解の効果 (自然言語理解)
- アイデアインテグレーション環境
- Augmented Dependency Grammar(ADG)の意味構造(II)