PPM^*モデルによる日本語単語分割
スポンサーリンク
概要
- 論文の詳細を見る
日本語処理において, 単語の同定, すなわち文の単語分割は, 最も基本的かつ重要な処理である.本稿では, 文字モデルとビタビアルゴリズムから成る新しい単語分割手法を提案する.まず, 本研究の基本法である文字n-gramモデルに基づく単語分割法を提案する.さらに, 単語分割の精度向上のために, 文字n-gramモデルに代わり, データ圧縮アルゴリズムPPM^*を用いた言語モデルを適用して単語分割モデルを改良する.PPM^*は, 確率・統計的テキスト圧縮技法として最も性能の優れたPPM(Prediction by Partial Matching)の一種である.PPM^*モデルは無限長文脈を取り扱うことのできる可変長n-gramモデルとみなすことができる.ATR対話データベースを用いた評価実験において, 文字n-gramモデルを用いた場合との単語分割精度の比較を行い, 本手法の有効性を示す.
- 社団法人情報処理学会の論文
- 1998-11-05
著者
関連論文
- PPM^*言語モデルを用いた日本語単語分割
- PPM^*モデルによる日本語単語分割
- 単語の位置情報に基づくコーパスからのコロケーションの自動抽出
- 単語の出現位置情報を用いたコーパスからのコロケーションの自動抽出
- 文字クラスモデルによる日本語単語分割
- 文字クラスモデルに基づく日本語単語分割
- 講義映像配信システムにおける講義映像と資料の対応
- フィルタバンク特徴量とEarth Mover's Distanceを用いた音楽検索
- 教師あり学習によるベクトル空間情報検索モデルの精度改善
- 仕事量基準を用いたコーパスからの定型表現の自動抽出
- D-020 WWW画像検索システムにおける有害画像フィルタリング手法(D分野:データベース)
- 発話タイプ付きコーパスを用いた確率的対話モデルの自動生成
- 確率・統計的手法による対話構造のモデル化
- 確率・統計モデルの音声言語処理への応用 ( 「コーパスに基づく音声・自然言語処理」)
- 音声言語の確率モデル ( 「コーパスに基づく音声・自然言語処理」)
- 単語の出現位置情報を用いたコーパスからのコロケーションの自動抽出
- Earth Mover's Distance の高速検索ライブラリ fastEMD の開発
- 字幕付き映像データからの字幕領域の検出手法
- 中国の自然言語処理について
- MPEG映像データに対するカットシーンの高速検出手法
- 距離反比例型スコアを導入したコロケーションの自動抽出法
- 自由発話音声認識における音響分析の比較
- World Wide Webからの対訳データの自動収集
- 情報検索のための概念ベクトル生成手法
- PDDPによる概念ベクトルを用いた情報検索システム
- PDDPによる概念ベクトルを用いた情報検索システム
- ランダム・プロジェクションによるベクトル空間モデルの次元削減
- オーディオ指紋検索に適した高速なハミング空間検索
- LRパーザ制御によるOne-pass型連続音声認識アルゴリズム
- サポートベクターマシンによる適合性フィードバックを用いた情報検索
- ETSI標準分散音声認識フロントエンドを用いた音声認識実験
- 音素依存線形判別分析の検討
- Simple PCAを用いたベクトル空間情報検索モデルの次元削減
- Non-negative Matrix Factorizationを用いた情報検索
- 情報検索システムの統計的手法による特徴と精度の分析
- ランダム・プロジェクションによるベクトル空間情報検索モデルの次元削除
- 解散フーリエ変換を用いたベクトル空間モデルの次元削減
- 教師あり学習によるベクトル空間モデルの精度改善
- 検索質問多重化による高速なオーディオ指紋検索