統計的言語モデルとN-best探索を用いた日本語形態素解析法
スポンサーリンク
概要
- 論文の詳細を見る
本論文では, 統計的言語モデルとN-best探索アルゴリズムを用いた新しい日本語形態素解析法を提案する. 本方法は, 未知語の確率モデルを持つことにより任意の日本語文を高精度に解析し, 確率が大きい順に任意個の形態素解析候補を求められる. EDRコーパスの部分集合(約19万文, 約470万語)を用いて言語モデルの学習を行い, オープンテキスト100文に対してテストを行ったところ, 単語分割の精度は第1候補で再現率94.6%適合率93.5%, 上位五候補で再現率97.8%適合率88.3%であった.
- 一般社団法人情報処理学会の論文
- 1999-09-15
著者
関連論文
- ラベルありデータの選択バイアスに頑健な半教師あり学習
- 同義語情報を用いた確率的単語アライメントモデル
- Wikipediaからの大規模な人オントロジー構築
- 日本語語彙大系を用いたWikipediaからの汎用オントロジー構築
- 機械翻訳最新事情 : (下)評価型ワークショップの動向と日本からの貢献
- 機械翻訳最新事情 : (上)統計的機械翻訳入門
- 統計的機械翻訳(自然言語とコンピュータ)
- 意味的等価性検証に基づく記述式解答文の採点法(テキストの類似性・文処理モデル)
- 意味的等価性検証に基づく記述式解答文の採点法(テキストの類似性・文処理モデル)
- Wikipedia からの大規模な人オントロジー構築
- SLP・NL合同セッション「ここまでできるぞ音声/言語処理技術」 : 言語編
- SLP・NL合同セッション「ここまでできるぞ音声/言語処理技術」 : 言語編 : 1 言語処理技術の現状
- D-12-67 「領域抽出不要型文字認識」に基づく景観中単語認識(D-12. パターン認識・メディア理解, 情報・システム2)
- クロス言語情報検索と多言語情報アクセスシステム (特集論文1 高度検索技術)
- Support Vector Machine を使ったモーラ列からの日本語姓名のアクセント推定(音声, 聴覚)
- マルチメディア時代を支える言語処理技術 (特集論文 メディア処理技術)
- 音声翻訳実験システム(ASURA)のシステム構成と性能評価
- 発話タイプ付きコーパスを用いた確率的対話モデルの自動生成
- 単一化に基づく構文解析における制約の選択的適用
- 音声制御ブラウザ VCWeb の英日シームレス化
- 日本語語彙大系を用いた Wikipedia からの汎用オントロジー構築
- 表層情報を利用したネットニュース領域構造解析
- 表層情報を利用したネットニュース領域構造解析
- チャートパーザによる音声認識候補の効率的解析手法
- 汎用的な意味解析技術への挑戦 (特集 ポータルサービスを支える自然言語処理技術)
- テキスト分類 : 学習理論の「見本市」(情報論的学習理論とその応用)
- ループを含む素性構造単一化における構造共有手法
- 日本語教育のための誤り訂正ローマ字かな変換
- 日本語OCRのための表記と読みの同時形態素解析
- 構文・照応・評価情報つきブログコーパスの構築
- 再学習による翻訳モデルを用いた単語アライメントの向上
- 言語横断情報検索における画像手がかりを用いたインタラクティブな翻訳曖昧性解消の評価
- 統計的言語モデルとN-best探索を用いた日本語形態素解析法
- 未知語の確率モデルと単語の出現頻度の期待値に基づくテキストからの語彙獲得
- Pitman-Yor過程に基づく確率的木挿入文法モデル
- 統計的文法獲得モデルのための部分木ブロック化サンプリング法
- カテゴリ名と記事名の意味属性分類に基づく Wikipedia からの上位下位関係オントロジーの構築
- 統計的文法獲得モデルのための擬似部分木ブロック化サンプリング法
- 画像検索を用いた語義別画像付き辞書の構築