正規化頻度による形態素境界の推定
スポンサーリンク
概要
- 論文の詳細を見る
本論文では著者がすでに提案している統計的手法による形態素境界の推定法の改善について検討した結果を述べる. 著者の手法では, 分かち書きされていない日本語テキストから形態素境界を推定するために, まずNグラムの統計情報(頻度, 頻度の期待値や分散)から文字列の正規化頻度を計算し, 次にそれを用いて語の境界を獲得する. しかし解の探索条件を変えることによって, より解析精度を向上させることができることがわかった. EDR日本語コーパスを用いた実験の結果, 得られた境界と形態素境界の適合率は82.00%, 再現率は82.20%であった. なお本手法は既存の形態素解析の手法と重複する部分がないため, 両者の併用によってさらに解析精度の向上が期待できる.
- 一般社団法人情報処理学会の論文
- 1996-05-28
著者
関連論文
- 日本語情報検索システム評価用テストコレクションの構築
- 日本語情報検索システム評価用テストコレクション BMIR-J2
- 統計的手法による辞書未登録語の獲得法
- データ項目名等の意味解析による概念モデルの作成法
- 双方向マルチメディア通信可能なWWW上でのCAIシステム
- 統計的手法によるテキストからの重要語抽出メカニズム
- 検索者とサーバーの協調によるWWW情報検索サーバーの性能改善に関する考察
- 正規化頻度による形態素境界の推定
- 正規化頻度による形態素境界の推定
- 統計的手法による分かち書き境界の獲得
- 統計的手法によるテキストからのキーワード抽出法
- スキーマ統合におけるスキーマ要素間の類似性発見手法
- データ項目名等の意味解析による既存のDB中の実体型抽出アルゴリズム