単語頻度の期待値に基づく未知語の自動収集
スポンサーリンク
概要
- 論文の詳細を見る
本稿では、単語の出現頻度の期待値に基づいて日本語テキストから未知語を収集する方法を報告する。まず頑健なN-best単語分割プログラムを用いて日本語テキスト中の単語候補の頻度の期待値を求め、次に頻度の期待値が予め決めた閾値以下である単語候補を取り除くことにより未知語候補の集合を得る。本手法における単語頻度の期待値の計算法は、一般化前向き後向きアルゴリズムの近似計算法に相当する。人手により単語分割された470万語のEDRコーパスで単語分割プログラムを訓練し、未知語率2.1%の試験文(1000文)でテストしたところ、未知語収集の精度は再現率43.7%, 適合率52.3%であった。
- 一般社団法人情報処理学会の論文
- 1996-11-18
著者
関連論文
- SLP・NL合同セッション「ここまでできるぞ音声/言語処理技術」 : 言語編
- SLP・NL合同セッション「ここまでできるぞ音声/言語処理技術」 : 言語編 : 1 言語処理技術の現状
- 音声翻訳実験システム(ASURA)のシステム構成と性能評価
- 発話タイプ付きコーパスを用いた確率的対話モデルの自動生成
- 単語頻度の期待値に基づく未知語の自動収集
- 確率・統計的手法による対話構造のモデル化
- 確率・統計モデルの音声言語処理への応用 ( 「コーパスに基づく音声・自然言語処理」)
- 音声言語の確率モデル ( 「コーパスに基づく音声・自然言語処理」)
- 文字類似度と統計的言語モデルを用いた日本語文字認識誤り訂正法
- 文字類似度と統計的言語モデルを用いた日本語文字認識誤り訂正法
- SLP・NL合同セッション「ここまでできるぞ音声/言語処理技術」 : 言語編 : 4 文字認識用日本語スペルチェッカjspell
- 単語頻度の再推定による自己組織化単語分割
- 確率モデルによる自由発話の形態素解析
- 前向きDP後向きA^*アルゴリズムを用いた確率的日本語形態素解析システム
- 音声言語処理における統計的言語モデルの現状と動向
- キ-ワ-ドの自動抽出と重要度評価
- 重要概念抽出に基づく新聞記事からのキーワード作成
- チャートパーザによる音声認識候補の効率的解析手法