階層構造データ列の簡易な高速検索アルゴリズム(重要語抽出・検索・文書分類)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では, 京都テキストコーパスの形態素情報の品詞, 品詞細分類, 単語などの階層構造をもったデータの列を簡易に高速検索するアルゴリズムを記述する.本稿のアルゴリズムでは各データについて抽象度の低い階層のデータを二つの同じ抽象度の高いデータで挟んだデータを作成し, それらをつなげて一つのテキストとしそれをデータベースに格納する.データベースからの検索にはsuffix arrayを利用する.実際に実験を行なった結果, 本稿で提案する手法は比較手法に比べて, 速いときで194倍速く, 平均でも24倍速かった.本稿のアルゴリズムは他の形態の階層構造にも利用できる.本手法の応用としては, Webテキストなどにおいて各単語に下位の意味ラベル, 中位の意味ラベル, 上位の意味ラベルなどの意味的な階層の情報を付与しておきそのデータに対して本手法を適用することが考えられる.このようにするとWebテキストにおいて「下位の意味ラベル: 行政機関」と「単語: の」と「中位の意味ラベル: 技術」をつなげた検索キーのようなものも検索できるようになり, 従来のWEB検索よりもより汎用的で便利な検索が実現できるようになる.WEBの検索は一般的に需要が大きく, 本稿のアルゴリズムはそういう需要の大きな課題にも利用できるものである.
- 一般社団法人情報処理学会の論文
- 2005-07-22
著者
-
内山 将夫
独立行政法人情報通信研究機構
-
井佐原 均
独立行政法人 情報通信研究機構 けいはんな情報通信融合研究センター
-
村田 真樹
独立行政法人情報通信研究機構
-
金丸 敏幸
京都大学大学院人間・環境学研究科
-
村田 真樹
鳥取大学
-
内山 将夫
独立行政法人情報通信研究機構 知識創成コミュニケーション研究センター
-
村田 真樹
独立行政法人情報通信研究機構 知識創成コミュニケーション研究センター
-
井佐原 均
独立行政法人情報通信研究機構 知識創成コミュニケーション研究センター
-
井佐原 均
独立行政法人 情報通信研究機構
-
金丸 敏幸
独立行政法人情報通信研究機構 知識創成コミュニケーション研究センター
関連論文
- コミュニケーションサイトに投稿されたメッセージに対する著者の推定(情報抽出(テーマセッション3))
- 日本語発話文の敬語の誤用を指摘するシステム(人工知能)
- 表記選択支援のための優勢表記辞書の作成(語彙)
- メールの文章における段落間の接続の強さの推定(コミュニケーション支援(テーマセッション3))
- 京都大学学術語彙データベースの構築 : 学術目的英語のための教材開発に向けて(言語と学習,場の共創)
- コーパスに基づくがん用語集合の作成と評価
- 言語音を解読する神経機構 : 音のどこに解読の手がかりは書き込まれるか?
- 話し言葉における引用節・挿入節の自動認定および係り受け解析への応用
- 話し言葉における引用節の自動認定および引用符の付与(第8回音声言語シンポジウム)
- 話し言葉における引用節の自動認定および引用符の付与(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- 話し言葉における引用節の自動認定および引用符の付与
- AS-4-3 敬語の誤用を指摘するシステム : GUIの実装(AS-4.円滑なコミュニケーション,シンポジウム)
- LE-002 テンス・アスペクト・モダリティの翻訳における機械翻訳システムの誤りの調査(E分野:自然言語)
- 自然言語処理技術を用いた大会プログラム作成支援について
- 用例ベースによるテンス・アスペクト・モダリティの日英翻訳
- WWWからの大規模動詞含意知識の獲得
- シリーズ型質問文に対して単純結合法を利用した逓減的加点質問応答システム
- 階層構造データ列の簡易な高速検索アルゴリズム(重要語抽出・検索・文書分類)
- 階層構造データ列の簡易な高速検索アルゴリズム(重要語抽出・検索・文書分類)
- 言語学的考察および機械学習手法に基づく意見分析支援--要求意図を取り出す一手法 (2005年情報学シンポジウム講演論文集--社会システムを支える情報学) -- (セッション5:知識獲得・記述の支援)
- 効率的な語彙獲得のための英文読解教材の作成
- フェイスシートとの関係を利用した自由回答アンケートの分析(解析)
- 新聞記事コーパスでの単語出現特徴を利用した観光イベント情報の検索支援
- フェイスシートとの関係を利用した自由回答アンケートの分析(解析)
- 英文読解のためのコースウェアの作成(教育)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- 英文読解のためのコースウェアの作成(教育)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- 英語教育のための分野特徴単語の選定尺度の比較
- 自由回答アンケートにおける要求意図判定基準
- 質問応答システムにおける逓減加点法に基づく複数記事情報の利用(質問応答・文書分類・自動収集)
- 英文読解のためのコースウェアの作成
- 複数尺度の統計的統合法とその専門用語抽出への応用(オントロジ・抽出(2))(セマンティックウェブと自然言語処理その他一般)
- 複数尺度の統計的統合法とその専門用語抽出への応用
- 日英新聞の記事および文を対応付けるための高信頼性尺度
- WWW検索における複数検索結果の統合処理とその評価(データベースと感性,デザイン,バイオインフォマティクス,音楽,環境,医学,建築分野との連携)
- 事物間関係の推定における文書内頻度を考慮した補完類似度の性能評価
- 2 学術研究の場としての大学英語教育 : 京都大学の英語カリキュラム(関西地区大学,支部特別企画「変わる大学英語」,国際交流「新」時代における大学英語教育カリキュラム刷新)
- SENSEVAL2J 辞書タスクでのCRLの取り組み : 日本語単語の多義性解消における種々の機械学習手法と素性の比較
- 近似文字列照合による全文検索のための接尾辞配列の高速走査法
- 多価イオンの衝突輻射モデルの構築の自動化支援
- コーパスからの形容詞概念階層の構築と評価 : 実データによる形容詞オントロジーの構築にむけて
- 形容詞概念抽出のための統語パタン分析 : コーパスからの日本語語彙オントロジーの構築をめざして(言語理解とオントロジーシンポジウム)
- 出現状況の包含関係による語彙の階層構造の構築(知識処理,情報処理技術のフロンティア)
- F-004 出現状況の包含関係を利用した語彙の階層関係の自動構築(F.人工知能)
- 共起情報に基づく呼応関係自動抽出法の検討(抽出(1))
- 自己組織型意味マップにおける形容詞と抽象名詞の分布 : 客観的なシソーラスをめざして(言語理解とコミュニケーション一般)
- 日本語名詞の意味マップの自己組織化
- Webサイトからの盗作の自動検出システム
- LE-001 生物医学文献での蛋白質名認識における過学習とTransductive SVMを用いた過学習の軽減(自然言語・音声・音楽)
- 投稿履歴と文体の類似判定を利用したQ&Aサイトにおけるなりすましユーザの検出
- 観光地に対する長所情報の収集と分類の試み(自然言語の論理と感情)
- 観光地に対する長所情報の収集と分類の試み(自然言語の論理と感情)
- 情報抽出表とソートグラフを利用したテキストマイニングシステム Simpleminer
- 入力文の格助詞ごとに学習データを分割した機械学習による受身文の能動文への変換における格助詞の変換
- 大規模記事群からの数値固有表現情報のテキストマイニング可視化システム(ツール・システム)
- 大規模記事群からの数値情報に関わるテキストマイニング・可視化
- E-012 大規模記事群からの数値固有表現情報のテキストマイニング可視化(E分野:自然言語・音声・音楽)
- LE_005 受け身文の能動文への変換における機械学習を用いた格助詞の変換に関する実験(E分野:自然言語)
- LE_001 テキストからの主要数値ペア群の抽出とそのグラフ化(E分野:自然言語)
- 事態の捉え方に関する副詞辞書の構築
- 日本語発話文における敬語の誤用を指摘するシステムの開発
- MuSTデータを利用した自動動向調査システムの開発(情報可視化,テキスト情報の要約と掲示に関わる自然言語処理シンポジウム及び一般)
- 用例に基づく手法と機械学習モデルの組合せによる訳語選択
- 対訳コーパスを利用したBerkeley FrameNetからの日本語Lexical Unitsの半自動的発見手法
- 大規模オープンソース日英対訳コーパスの構築
- 大規模オープンソース日英対訳コーパスの構築
- 概念辞書によるシステマティックなイノベーション支援に向けて (データによる分析と評価)
- メールの文章における段落間の接続の強さの推定(コミュニケーション支援(テーマセッション3))
- 機械学習手法を用いた日本語格解析 : 教師信号借用型と非借用型, さらには併用型
- 機械学習手法を用いた日本語格解析 : 教師信号借用型と非借用型, さらには併用型
- 論文アブストラクトから原子分子の状態の情報を検出,抽出する方法の研究
- 質問応答システムの現状と展望
- 参加者から見たNTCIR(NTCIR : 情報アクセスに関わるテキスト処理技術の評価ワークショップ)
- 日英新聞記事の対応付けと精度評価
- LF-004 自動言い換え技術を利用した三つの英語学習支援システム(F. 人工知能)
- 受け身/使役文の能動文への変換における機械学習を用いた格助詞の変換
- 機械学習を用いたタイ語の品詞タグづけ
- diffと言語処理
- 頻度に基づく正の例からの負の例の予測 : 日本語表現の誤り検出と外の関係の文の自動抽出
- diffと言語処理
- 頻度に基づく正の例からの負の例の予測 : 日本語表記の誤り検出と外の関係の文の自動抽出
- シソーラスを用いた意味フレーム階層ネットワークの効率的構築(特別セッション「言語理解と行動」(2))
- シソーラスを用いた意味フレーム階層ネットワークの効率的構築(特別セッション : 言語理解と行動(2))
- AS-6-1 発話文の敬語の誤用を指摘するシステム : プロトタイプの開発(AS-6. 円滑なコミュニケーションの解明へのアプローチ, 基礎・境界)
- 単語分布類似度を用いた類推による単語間の意味的関係獲得法
- 機械学習を用いたタイ語の品詞タグづけ
- A-15-15 柔軟な判定を行う日本語敬語誤用判定システムの開発(A-15.ヒューマン情報処理,一般セッション)
- 日本語の敬語誤用判定システム--判定ルールの妥当性の程度の数値化による柔軟な判定
- 英語学術論文執筆のための教材開発に向けて : 論文コーパスの構築と応用
- 言い換えの統一的モデル : 尺度に基づく変形の利用
- 英語学術論文の分野横断的ムーブ分析 : 各分野の専門家の協力を得て(poster session,明日の学習者、明日の教師-大学英語教育における学習者と教師の自律的成長)
- 翻訳メモリとコーパスを用いた学習に基づく訳語選択
- SENSEVAL2J辞書タスクでのCRLの取り組み
- 種々の機械学習手法を用いた多義解消実験
- 分布類似度とWikipediaから獲得した構造情報を利用した上位下位関係獲得
- 大規模分布類似度計算のためのベイズ手法を用いた新しい類似尺度
- アカデミックライティング授業におけるフィードバックの研究 : Criterion(R)を導入した授業実践からの示唆
- 音声翻訳システム実利用データを用いたシステム改善手法(音声翻訳,統計的機械学習,異文化コラボレーション論文)
- 音声翻訳システム実利用データを用いたシステム改善手法
- A-13-6 心的状態を考慮したテキスト対話からの情緒推定(A-13.思考と言語,一般セッション)
- 多言語音声翻訳システム"VoiceTra"の構築と実運用による大規模実証実験(音声,聴覚,システム開発論文)