2連続平仮名文字列を2次情報とした文検索
スポンサーリンク
概要
- 論文の詳細を見る
近年,用例ベースの翻訳を応用したシステムとして,対訳ベータベースから類似の用例を検索し,その対訳を提示することで,翻訳の支援を行うシステムの研究が盛んである.このようなシステムでは類似の捉え方が重要であるが,その上で類似用例の高速な検索法も必要とされている.ここでは,入力文字列を含む用例を検索するという最も基本的な利用方の上での高速な検索法を提案する.テキストデータベースから入力文字列を含む文を検索するには,一致アルゴリズムを用いて全文検索を行えばよい.また,これを高速化するためには,専用ハードウェアの作成や一致アルゴリズムの改良の他に,2次情報の作成,利用が効果的である.2次情報とはデータをあるカテゴリで分類し,それら個々の分類グループにインデックスをつけたものである.検索キーからインデックスを得ることで,検索対象範囲を絞り込み,実際の検索はその絞り込んだ部分に対してだけ行なえば良いため,検索が効率化される.従来,用例検索用の2次情報としては,文に含まれる単語あるいは文字をインデックスとしたものがあった.各単語(or文字)に対してその単語(or文字)を含む文番号の集合(2次情報)を作成しておき,それを利用して検索文字列中の単語(or文字)を含む文の集合が得られる.しかし単語の場合は,形態素解析が必要であり,2次情報の作成が困難である.また文字の場合は,比較的短い平仮名列に対して,絞り込みの効果が低い用例検索の場合,翻訳しづらい構文パターン(ex 「~すれば~するほど」),定型的な句(ex 「に関して」),文末表現(ex 「~とも思える」)などが検索の対象となることが多く,検索文字列に平仮名が多用されるた,十分に絞り込みが行なえない場合もある.本論文では上記の単独文字による2次情報と,2連続平仮名文字列による2次情報とを合わせて利用する手法を提案する.また本手法をそのまま実装すると2次情報が大きくなり過ぎる.これを避けるため,利用頻度の低い2次情報を作成しないことも試みる.
- 一般社団法人情報処理学会の論文
- 1994-09-20
著者
関連論文
- EMアルゴリズムの最適ループ回数の予測を用いた語義判別規則の教師なし学習(自然言語)
- 潜在的文脈関連度を用いた検索質問拡張
- 語義の特異性を利用した慣用表現の自動抽出
- 片方向の共起性による述語型定型表現の自動抽出
- コーパスからの付属語的表現の自動抽出
- 疑似Nグラムを用いた助詞的定型表現の自動抽出
- コーパスからの関係表現の自動抽出
- JEIDA機械翻訳システム評価基準(品質評価編) : 英日翻訳の品質評価項目の検討と評価用コーパスの作成
- 日本語翻訳タスクへの帰納論理プログラミングの適用
- NMFによる重み付きハイパーグラフを用いたアンサンブル文書クラスタリング
- Webサイトの階層的なWebディレクトリへの自動分類手法
- 半教師有りクラスタリングを用いた語義数の推定と語義別用例の収集
- Webサイトの階層的なWebディレクトリへの自動分類手法(QA・Web検索)
- NMFとリンクベースの修正法によるピンポン型文書クラスタリング(一般セッション「分類と抽出」)
- NMFとリンクベースの修正法によるピンポン型文書クラスタリング(一般セッション「分類と抽出」)
- EMアルゴリズムの最適ループ回数の予測を用いた語義判別規則の教師なし学習
- 半教師有りクラスタリングを用いた語義数の推定と語義別用例の収集(語彙2)
- 文書分類を用いたスパムメール判定手法(フィルタリング、文書分類)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- 文書分類を用いたスパムメール判定手法(フィルタリング、文書分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- Webページ内の目的部分の自動抽出(情報抽出・翻訳知識獲得)
- 多項分布と一様分布の混合分布による語義の事前分布の推定(多義性解消)
- 多項分布と一様分布の混合分布による語義の事前分布の推定(多義性解消)(言語理解とコミュニケーション)
- 多項分布と一様分布の混合分布による語義の事前分布の推定
- SVDPACKC とその語義判別問題への利用
- 単語クラスタリングの語義判別問題への応用
- 情報検索手法を利用した語義判別問題の高速解法
- コーパスを利用した分類語彙表の未登録語義の発見
- コーパスを利用した分類語彙表の未登録語義の発見
- EM アルゴリズムを用いた教師なし学習の日本語翻訳タスクへの適用
- SENSEVAL2日本語翻訳タスクに向けて作成した語義判別規則学習システムIbaraki
- 日本語形態素解析の分類問題への変換とその解法
- 素性間の共起性を検査するCo-trainingによる語義判別規則の学習
- 素性間の共起性を検査するCo-trainingによる語義判別規則の学習
- 決定リストを弱学習器としたアダブーストによる日本語単語分割
- 日本語単語分割へのタグなしコーパスとタグ付きコーパスの利用
- 表記情報をデフォルトの証拠として用いた決定リストによる同音異義語の誤り検出
- 日本語形態素解析のクラス分類問題への変換とその解法
- 文字列が単語になる確率を用いた未知語抽出
- 平仮名N-gramによる平仮名列の誤り検出とその修正 (新しいシステムソフトウェア)
- 複合語からの証拠に重みをつけた決定リストによる同音異義語判別
- 誤りやすい同音異義語の収集
- 誤りやすい同音異義語の収集
- 複合語判定を優先させた決定リストによる同音異義語判定
- コーパスとシソーラスを利用した名詞間距離の設定
- 2連続平仮名文字列を2次情報とした文検索
- 外れ値検出手法を利用した新語義の検出