予測単位の変更によるn-gramモデルの改善
スポンサーリンク
概要
- 論文の詳細を見る
本論文では、文字n-gramモデルや形態素n-gramモデルの予測単位を文字列や形態素列に拡張した連文字n-gramモデルや連語n-gramモデルを定義し、予測力という観点でモデルを改善する方法を提案する。モデルの探索における目的関数は、形態素クラスタリングで有効性が示されている平均クロスエントロピーである。これは、削除補間のように、評価用のコーパスとモデルの推定用のコーパスとを別に用意するというアイデアに基づいている。日本語コーパスを用いた実験の結果、クロスエントロピーを計算すると、連文字n-gramモデルは4.3791であり文字n-gramモデルの5.4105より低く、連語n-gramモデルは4.4555であり形態素n-gramモデルの4.6053より低く、モデルの改善が観測された。
- 社団法人電子情報通信学会の論文
- 1997-12-12
著者
-
長尾 眞
京都大学工学部電気工学第二教室
-
長尾 真
京都大学工学部電気工学科
-
山地 治
松下電器産業株式会社マルチメディア開発センター
-
長尾 真
京都大学工学部電気工学第2学科
-
森 信介
日本アイ・ビー・エム株式会社東京基礎研究所
-
長尾 真
独立行政法人情報通信研究機構
-
長尾 眞
京都大学工学研究科電子通信工学
-
森 信介
京都大学工学研究科
-
山地 治
京都大学工学研究科
-
長尾 眞
京都大学工学部 電気工学第二教室
-
長尾 眞
京都大学大学院情報学研究科知能情報学専攻
関連論文
- 6.言語・画像のデータ依存情報処理(情報処理技術の未来地図,50周年記念特集号)
- 国立国会図書館 館長対談(第13回)前フランス国立図書館長 ジャン-ノエル・ジャンヌネー氏 文化の多様性と知の伝承
- 国立国会図書館 館長対談(第7回)デジタル時代のスウェーデン国立図書館の挑戦 (デジタル時代のスウェーデン国立図書館の挑戦--スウェーデン国立図書館長 グンナー・サーリン氏)
- 本の森を歩く(特別篇)館長 長尾真が読書週間に選ぶ9冊
- 絵画解説文の対象情報・感性的情報の抽出
- 画像の内容を説明するテキストを利用した画像解析
- キャプションと記事テキストの文字列照合による報道番組と新聞記事との対応づけの自動化
- パターン情報と自然言語情報の統合による植物図鑑の図の理解
- キャプションと記事テキストの最長一致文字列照合による報道番組と新聞記事との対応づけの自動化
- 図鑑の解説文から内容抽出を行うための専門知識の構築