文字成分表型全文検索システムのSGML文書検索への拡張
スポンサーリンク
概要
- 論文の詳細を見る
文書の電子化が進み、大量の電子化文書を計算機によって扱う必要性が増すに従い、電子化された文書内容を扱うための全文検索方式がさまざまに提案されてきた。全文検索は、電子化された大量文書中から、任意の文字列をキーワードとして検索することができる検索方式であり、我々はファイリングシステムの検索機能として、全文検索機能を製品化している。一方、文書の構造自体を電子化された文書中に持たせた構造化文書がある。構造化された文書は、構造によって文書の意味が定義されるため、より細かい意味付けが文書中でなされている。その中で、SGML(Standard Generalized Markup Language)規格に従った構造化文書が、最近注目されている。SGML文書は、文書型定義(DTD:Document Type Definition)が明確に定義された上で、文書が作成されるので、計算機で扱いやすい構造化文書である。全文検索を構造化文書に対応することで、検索ノイズを減少させ効率良い検索が可能となる。今回、全文検索の一方式である、我々の文字成分表型全文検索システムをSGML文書検索に対応出来るよう拡張したものを試作したのでその方式及び、問題点を考察する。
- 一般社団法人情報処理学会の論文
- 1996-03-06
著者
-
今村 誠
三菱電機(株)情報技術総合研究所
-
高山 泰博
三菱電機(株)情報技術総合研究所
-
藤井 洋一
三菱電機(株)パーソナル情報機器開発研究所
-
鈴木 克志
三菱電機(株)パーソナル情報機器開発研究所
-
藤井 洋一
三菱電機株式会社情報技術総合研究所
-
鈴木 克志
三菱電機 情報技総研
-
森口 修
三菱電機インフォメーションシステムズ株式会社ビジネスソリューション事業本部
-
森口 修
三菱電機(株)情報技術総合研究所
-
今村 誠
三菱電機(株)
-
藤井 洋一
三菱電機(株) 情報技術総合研究所
関連論文
- 企業における知識創造のためのコミュニケーション基盤に関する一考察(コミュニケーション基盤,情報社会のデザイン;デジタルドキュメントと知的コミュニケーション)
- 見出し構造を用いた情報機器操作マニュアルからの用語知識獲得方式
- 技術文書標題からのキーワード抽出
- 素性論理に基づくXML文書ルール記述言語DRDL(メタ言語とメタデータ)(ユビキタス社会における情報流通および一般)
- 木・表構造間写像モデルに基づくXML-HTML変換用スタイルシート自動生成方式(セッション3 : XML 検索・変換)(テーマ:デジタルコンテンツの管理と応用)
- XML文書ルール記述言語DRDLとそのECシステムへの応用
- 概念抽出型テキストマイニングによるアンケート分析手法の提案
- D-5-2 CRM 向けテキストマイニング方式の提案
- eCRM向け概念抽出型テキストマイニング
- Semantic Webの技術と応用の動向
- D-37 大規模検索システムにおける概念辞書自動更新(辞書・シソーラス,D.データベース)
- 言語事例推論を用いたネットワーク障害対応ガイダンス
- 1N-1 ヘルプデスク支援システムにおける用語獲得
- 2U-1 ヘルプデスク支援システムにおける言語事例データの類似検索
- コーパスからの同義語の獲得(2) : スパース性への対処
- コーパスからの同義語の獲得(1) : 近傍単語頻度統計によるアプローチ
- 対話型ヘルプデスク支援システムにお1ナる事例べース構築
- 自然言語事例ベース検索の設計支援への適用
- 自然言語事例ベースの仕様書文解析の評価
- eCRM向け概念抽出型テキストマイニング
- 言語事例推論を用いたネットワーク障害対応ガイダンス
- ヘルプデスク支援システムにおける問題解決機能
- 1P-4 ヘルプデスク支援システムにおける言語事例検索 : 全体構成
- 1P-3 ヘルプデスク支援システムにおける言語事例検索 : 類似文照合
- 4M-2 ヘルプデスク事例活用のための言語分析方式
- D-13-1 表形式UIモデル記述からのWeb画面プログラム自動生成方式(D-13. 知能ソフトウェア工学,一般セッション)
- 技術文書からの用語知識の自動獲得方式の検討(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- 技術文書からの用語知識の自動獲得方式の検討(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- D-13-8 注釈付きXMLスキーマを利用したデータ変換プログラム生成方式(D-13.知能ソフトウェア工学,一般講演)
- D-5-8 表層格解析を用いた業務文書チェック方式(D-5.言語理解とコミュニケーション,一般講演)
- D-5-7 設計文書における同義語辞書自動作成方式 : 表記ゆれ抽出の検討(D-5.言語理解とコミュニケーション,一般講演)
- 10.Socio Sense : 過去9年に及ぶWebアーカイブから社会の動きを読む(第2部:情報の高信頼蓄積・検索技術等の開発,学と産の連携による基盤ソフトウェアの先進的開発)
- Webマイニングにおける語義曖昧性解消のための擬似負例を用いた能動学習
- 企業における知識創造のためのコミュニケーション基盤に関する一考察(コミュニケーション基盤,情報社会のデザイン;デジタルドキュメントと知的コミュニケーション)
- 5L-6 ウェブからの分析対象文書抽出手法の検討(リーディングプロジェクト e-society:WebアーカイブとWebデータ解析技術,一般セッション,リーディングプロジェクト e-society)
- Webアプリケーションユーザーインタフェース構築技術 (特集 デジタルメディアを支える先進技術)
- 自然言語の文法記述との類推に基づく構造化文書処理技術の開発(平成18年度論文賞の受賞論文紹介)
- 素性論理に基づくXML文書ルール記述言語DRDLとインターネット文書交換システムへの応用(コンテンツ処理,新たな適用領域を切り開く情報システム)
- D-13-10 地理情報標準プロファイルJPGISからの地物Javaクラス自動生成方式(D-13.知能ソフトウェア工学,一般講演)
- D-13-8 適合性フィードバックに基づいた文書チェックルール作成支援方式(D-13.知能ソフトウェア工学,一般講演)
- D-5-13 多次元絞込み検索機能によるテキストマイニング(D-5.言語理解とコミュニケーション,一般講演)
- D-5-6 意味構造抽出のための係り受け解析に関する考察(D-5.言語理解とコミュニケーション,一般講演)
- D-5-8 単語の連想関係に基づく概念検索方式の評価(D-5. 言語理解とコミュニケーション, 情報・システム1)
- 木・表構造間写像モデルに基づくXML入力画面自動生成方式(コンテンツ処理)
- 段落内共起情報を利用した文書自動分類方式
- 企業間文書情報共有におけるSGML文書内容検証方式
- WWWブラウザによるXML文書入力方式について
- SGML 文書の内容検証方式とその評価
- ライフログ活用技術とその課題 : 将来オフィスなどの応用分野でライフログは活用されるか?(ライフログ活用技術とその課題,オフィス情報システム,デジタルドキュメント,一般)
- ライフログ活用技術とその課題 : 将来オフィスなどの応用分野でライフログは活用されるか?(ライフログ活用技術とその課題,オフィス情報システム,デジタルドキュメント,一般)
- 全文検索システムにおける文字成分表の作成手法
- 全文検索における例文検索
- カタカナ異表記を考慮したユーザ辞書システムの拡張
- 専門用語辞書からの情報抽出と翻訳支援への適用
- 日英機械翻訳における数量表現処理の拡張
- 「韻」に基づく並列句の解析
- 実用性の向上を目指した機械翻訳システムの改良(2)
- 漢字に関する異表記の調査
- 実用性の向上を目指した機械翻訳システムの改良
- 日英機械翻訳システムMELTRAN-J/Eにおける空間的機能名詞の処理
- 日英機械翻訳システムにおける長文の解析
- 日本語の表層格構造の記述について(2) : 拡張格構造の扱い
- 日英機械翻訳における日本語解析前半部の一構成
- 日本語の表層格構造の記述について
- E-35 XML入力画面自動生成方式(自然言語処理応用,E.自然言語・文書)
- 電子申請におけるXML文書内容検証方式
- 次世代WebビジョンSemantic Webの技術動向
- 電子申請におけるXML文書内容検証方式 : 複数XML文書の内容間制約を記述する文書規約記述言語DRDL
- XML文書ワークフロー構築支援方式 : インターネットを用いた設計支援システムにおけるXML文書設計支援方式
- D-9-12 XML文書ワークフロー構築支援方式
- XMLによる電子申請書のメタ情報の表現について
- XMLスタイルシート作成ツールとワークフローへの応用
- 5P-2 企業間XML文書交換における文書規約の表現と利用について
- 5P-1 SGML文書のWWW入力・表示プログラム作成ツール
- XML文書のスタイルシート生成方式
- HTMLによるXML文書の入力方式について
- WWWブラウザによるSGML文書入力方式について
- SGML文書の内容検証方式の検討
- リンク情報を利用したインターネット情報検索方式の検討
- カタカナ異表記処理
- CYK法構文解析の一検討 : quick parsingについて
- データベースとProlog (プログラミング言語 Prolog)
- D-13-4 木・表構造間写像モデルに基づく高速XML変換方式(D-13. 知能ソフトウェア工学, 情報・システム2)
- D-5-7 情報検索のタスク評価手法に関する一考察(D-5. 言語理解とコミュニケーション)
- セマンティックWebとオントロジ記述言語(セマンティックWeb)
- 4 電子政府におけるXML利用技術の動向 (グローバルネットワーク社会を構築するXML)
- JEIDA機械翻訳システム評価基準(利用者編) : ユーザのための評価項目の作成とアンケート調査による検証
- 4N-4 アンケート自由記述のテキストマイニングに関する検討
- 共起情報を利用した新聞記事の自動分類結果の分析・評価
- 共起情報を利用した文書の自動分類
- 共起情報を利用した文書の自動分類について
- 文字成分表型全文検索システムのSGML文書検索への拡張
- CALS対応SGML文書管理技術
- 自然言語とグラフィクスを併用したガイダンスの生成方式について
- D-5-1 インタネット全文検索と関連文書検索を用いたポータル構築支援
- タグ無しコーパスからの複合語データの自動抽出
- 自然言語事例ベースの仕様書文解析への応用
- 単語の連想関係に基づく情報検索システムInfoMAP
- D-10-9 発電プラント向け異常検出のための時区間の最適分割方式の提案(D-10.ディペンダブルコンピューテイング,一般セッション)
- DITAを利用した企業向け人材育成教材作成モデルの構想