統計的手法による分かち書き境界の獲得
スポンサーリンク
概要
- 論文の詳細を見る
本論文では統計的手法によって,分かち書きされていない日本語テキストから分かち書き境界を自動抽出する方法について述べる.分かち書きされていない日本語テキストから単語を得るためには,形態素解析が必要であるが,従来は単語辞書と統語規則を用いた処理をしている.このため新しい表現の獲得や暖昧性の解消などの問題があった.本手法ではNグラムの統計情報(頻度,頻度の期待値や分散)を用いる. まず,Nグラムの統計情報から文字列の正規化頻度を計算し,次にそれを用いて語の境界を獲得する.これによって字面処理だけによって,多くの分かち書き境界の認定が可能になった.EDR日本語コーパスを用いた実験の結果,得られた境界と形態素境界の適合率は82・68%,再現率は63.89%であった.
- 社団法人電子情報通信学会の論文
- 1996-03-22
著者
関連論文
- 日本語情報検索システム評価用テストコレクションの構築
- 日本語情報検索システム評価用テストコレクション BMIR-J2
- 統計的手法による辞書未登録語の獲得法
- データ項目名等の意味解析による概念モデルの作成法
- 双方向マルチメディア通信可能なWWW上でのCAIシステム
- 統計的手法によるテキストからの重要語抽出メカニズム
- 検索者とサーバーの協調によるWWW情報検索サーバーの性能改善に関する考察
- 正規化頻度による形態素境界の推定
- 正規化頻度による形態素境界の推定
- 統計的手法による分かち書き境界の獲得
- 統計的手法によるテキストからのキーワード抽出法
- スキーマ統合におけるスキーマ要素間の類似性発見手法
- データ項目名等の意味解析による既存のDB中の実体型抽出アルゴリズム