統計情報とコスト最小法に基づいた形態素解析
スポンサーリンク
概要
- 論文の詳細を見る
近年、新聞記事データを中心として様々な電子化コーパスが利用可能となり、統計的な手法による自然言語処理の研究が盛んである。形態素解析においても、N-gram や d-bigramなどの統計データを用いた解析方式が提案されている。これらの統計的手法のうち、正規化頻度を用いる手法では、単語辞書を用いずに、ある程度の形態素区切りを獲得できることが報告されている。本稿では、正規化頻度が字面のみから得られる情報である点に着目し、従来の辞書と接続表を利用したコスト最小法におけるコストとして正規化頻度を導入することにより、既知語と未知語のコストを統一的に扱うことのできる形態素解析手法を提案する。
- 一般社団法人情報処理学会の論文
- 1997-03-12
著者
-
相川 勇之
三菱電機株式会社情報技術総合研究所
-
鈴木 克志
三菱電機株式会社情報技術総合研究所
-
鈴木 克志
三菱電機株式会社 情報技術総合研究所
-
細田 春美
三菱電機(株) 情報技術総合研究所
-
細田 春美
三菱電機株式会社 情報技術総合研究所
関連論文
- ダブル配列を用いた文書検索用キーワード提示の高速化(セッション3:キーワード付与)
- 技術文書標題からのキーワード抽出
- 概念抽出型テキストマイニングによるアンケート分析手法の提案
- D-5-2 CRM 向けテキストマイニング方式の提案
- eCRM向け概念抽出型テキストマイニング
- D-37 大規模検索システムにおける概念辞書自動更新(辞書・シソーラス,D.データベース)
- 言語事例推論を用いたネットワーク障害対応ガイダンス
- 1N-1 ヘルプデスク支援システムにおける用語獲得
- 2U-1 ヘルプデスク支援システムにおける言語事例データの類似検索
- コーパスからの同義語の獲得(1) : 近傍単語頻度統計によるアプローチ