PPM^*言語モデルを用いた日本語単語分割
スポンサーリンク
概要
- 論文の詳細を見る
日本語処理において, 単語の同定, すなわち文の単語分割は, 最も基本的かつ重要な処理である.本論文では, 確率的な文字言語モデルに基づく新しい単語分割手法を提案する.まず, 本研究の基本法である文字n-gramモデルに基づく単語分割法を提案する.さらに, 単語分割の精度向上のために, 文字n-gramモデルに代わり, データ圧縮アルゴリズムPPM^*を用いた言語モデルを適用した単語分割法を提案する.PPM^*は, 確率・統計的テキスト圧縮技法として最も性能の優れたPPM (Prediction by Partial Matching)の一種であり, 無限長文脈を取り扱うことができる.ADD (ATR Dialogue Database)コーパスを用いた評価実験において, 文字n-gramモデルを用いた場合とPPM^*モデルを用いた場合との比較を行った結果, PPM^*モデルの方が高い単語分割精度を達成した.PPM^*モデルを用いた本手法はオープンテキストにおいて再現率97.67%, 適合率98.27%を達成し, 文字n-gramモデルよりも頑健な未知語モデルとして機能した.
- 社団法人情報処理学会の論文
- 2000-03-15
著者
関連論文
- PPM^*言語モデルを用いた日本語単語分割
- PPM^*モデルによる日本語単語分割
- 単語の位置情報に基づくコーパスからのコロケーションの自動抽出
- 単語の出現位置情報を用いたコーパスからのコロケーションの自動抽出
- 文字クラスモデルによる日本語単語分割
- 文字クラスモデルに基づく日本語単語分割
- 講義映像配信システムにおける講義映像と資料の対応
- フィルタバンク特徴量とEarth Mover's Distanceを用いた音楽検索
- 教師あり学習によるベクトル空間情報検索モデルの精度改善
- 仕事量基準を用いたコーパスからの定型表現の自動抽出
- D-020 WWW画像検索システムにおける有害画像フィルタリング手法(D分野:データベース)
- 発話タイプ付きコーパスを用いた確率的対話モデルの自動生成
- 確率・統計的手法による対話構造のモデル化
- 確率・統計モデルの音声言語処理への応用 ( 「コーパスに基づく音声・自然言語処理」)
- 音声言語の確率モデル ( 「コーパスに基づく音声・自然言語処理」)
- 単語の出現位置情報を用いたコーパスからのコロケーションの自動抽出
- Earth Mover's Distance の高速検索ライブラリ fastEMD の開発
- 字幕付き映像データからの字幕領域の検出手法
- 中国の自然言語処理について
- MPEG映像データに対するカットシーンの高速検出手法
- 距離反比例型スコアを導入したコロケーションの自動抽出法
- 自由発話音声認識における音響分析の比較
- World Wide Webからの対訳データの自動収集
- 情報検索のための概念ベクトル生成手法
- PDDPによる概念ベクトルを用いた情報検索システム
- PDDPによる概念ベクトルを用いた情報検索システム
- ランダム・プロジェクションによるベクトル空間モデルの次元削減
- オーディオ指紋検索に適した高速なハミング空間検索
- LRパーザ制御によるOne-pass型連続音声認識アルゴリズム
- サポートベクターマシンによる適合性フィードバックを用いた情報検索
- ETSI標準分散音声認識フロントエンドを用いた音声認識実験
- 音素依存線形判別分析の検討
- Simple PCAを用いたベクトル空間情報検索モデルの次元削減
- Non-negative Matrix Factorizationを用いた情報検索
- 情報検索システムの統計的手法による特徴と精度の分析
- ランダム・プロジェクションによるベクトル空間情報検索モデルの次元削除
- 解散フーリエ変換を用いたベクトル空間モデルの次元削減
- 教師あり学習によるベクトル空間モデルの精度改善
- 検索質問多重化による高速なオーディオ指紋検索