予測単位の変更によるn-gramモデルの改善
スポンサーリンク
概要
- 論文の詳細を見る
本論文では、文字n-gramモデルや形態素n-gramモデルの予測単位を文字列や形態素列に拡張した連文字n-gramモデルや連語n-gramモデルを定義し、予測力という観点でモデルを改善する方法を提案する。モデルの探索における目的関数は、形態素クラスタリングで有効性が示されている平均クロスエントロピーである。これは、削除補間のように、評価用のコーパスとモデルの推定用のコーパスとを別に用意するというアイデアに基づいている。日本語コーパスを用いた実験の結果、クロスエントロピーを計算すると、連文字n-gramモデルは4.3791であり文字n-gramモデルの5.4105より低く、連語n-gramモデルは4.4555であり形態素n-gramモデルの4.6053より低く、モデルの改善が観測された。
- 一般社団法人情報処理学会の論文
- 1997-12-11
著者
-
長尾 眞
京都大学工学部電気工学第二教室
-
長尾 真
京都大学工学部電気工学科
-
山地 治
松下電器産業株式会社マルチメディア開発センター
-
長尾 真
京都大学工学部電気工学第2学科
-
森 信介
日本アイ・ビー・エム株式会社東京基礎研究所
-
長尾 真
独立行政法人情報通信研究機構
-
長尾 眞
京都大学工学研究科電子通信工学
-
森 信介
京都大学工学研究科
-
山地 治
京都大学工学研究科
-
長尾 眞
京都大学工学部 電気工学第二教室
-
長尾 眞
京都大学大学院情報学研究科知能情報学専攻
関連論文
- 6.言語・画像のデータ依存情報処理(情報処理技術の未来地図,50周年記念特集号)
- 国立国会図書館 館長対談(第13回)前フランス国立図書館長 ジャン-ノエル・ジャンヌネー氏 文化の多様性と知の伝承
- 国立国会図書館 館長対談(第7回)デジタル時代のスウェーデン国立図書館の挑戦 (デジタル時代のスウェーデン国立図書館の挑戦--スウェーデン国立図書館長 グンナー・サーリン氏)
- 本の森を歩く(特別篇)館長 長尾真が読書週間に選ぶ9冊
- 絵画解説文の対象情報・感性的情報の抽出
- 画像の内容を説明するテキストを利用した画像解析
- キャプションと記事テキストの文字列照合による報道番組と新聞記事との対応づけの自動化
- パターン情報と自然言語情報の統合による植物図鑑の図の理解
- キャプションと記事テキストの最長一致文字列照合による報道番組と新聞記事との対応づけの自動化
- 図鑑の解説文から内容抽出を行うための専門知識の構築
- 植物図鑑のテキストと図による植物用語間の階層関係の獲得
- 概念の属性を表す名詞述語文の述語の自動分類
- 図鑑の解説文から内容抽出を行なうための専門知識の構築
- IPAL辞書と分類語語彙を用いた単語意味辞書の作成
- TVニュースと新聞記事の対応づけ
- 表層的手がかりによる六法全書法律文での要件部・効果部の抽出手法
- 巻頭対談 国立国会図書館長・長尾真氏 VS.東京理科大学理事長・塚本桓世氏 これからの図書館のあり方と利用について
- 私のとってのこれからの認知科学
- 新塾長に期待する
- 創立40周年記念祝典のご報告
- 日本の大学のあるべき姿 (特集1 大学改革はどこへ向かうのか?) -- (大学を問う)
- 名詞句「AのB」「AB」の用例を利用した換喩解析
- 情報技術の新時代に向けて (情報技術の新時代に向けて)
- 科学的説明の確実性について
- 挨拶(大学授業をどう変えるか : 研究から実践へ Faculty Development を超えて)(第 5 回大学教育改革フォーラム)
- 確率的モデルによる仮名漢字変換
- 2. 先端技術を生み出す独創性 : 2-1 独創性とは(900号記念特集)
- インタラクティブ・エッセイ : 再コメント
- 電子図書館の正しい概念を持とう (インタラクティブ・エッセイ)
- 構文情報を利用した電子ニュース記事のクラスタリングシステムの作成と評価
- nグラム統計によるコーパスからの未知語抽出
- 21世紀情報社会へ向って
- 線分の空間的配置関係に基づく線図形の構造マッチング
- フーリエ記述子を用いたアフィン変換に不変な曲線の認識について
- 関数的検索機能を有する地理情報システムMILES
- 構造的パタ-ン認識-2-
- 構造的パタ-ン認識-1-
- 航空写真の構造解析
- 3)航空写真の画像解析とそのシステム(画像技術応用研究会(第42回))
- 航空写真の画像解析とそのシステム
- 15)文字パターンのスムーズな拡大の一方法(テレビジョン電子装置研究会(第67回) 画像表示研究会(第23回) 同合)
- パネル討論会 : 知識工学とその応用 : 昭和57年前期第24回全国大会報告
- 構文情報を利用した電子ニュース記事のクラスタリングシステムの作成と評価
- 表層表現と用例を用いた照応省略解析手法
- 日本語文章における表層表現と用例を用いた動詞の省略の補完
- 意味ネットワークからの文章生成
- 国立国会図書館 館長対談(第12回)児童文学者 松岡享子氏 読書は本とのコミュニケーション
- 国立国会図書館 館長対談(第11回)立命館大学教授、京都大学特任教授 佐和隆光氏 持続可能で豊かな社会を
- 国立国会図書館 館長対談(第10回)慶應義塾学事顧問、慶應義塾大学教授 安西祐一郎氏 知識は力である
- 国立国会図書館 館長対談(第9回)国際図書館連盟会長 クラウディア・ルクス氏 主張する図書館へ
- 国立国会図書館 館長対談(第8回)大阪大学名誉教授 伊井春樹 古典と現代
- 国立国会図書館 館長対談(第6回)文字・活字文化推進機構会長 福原義春氏 読書の力、本の力
- 予測単位の変更によるn-gramモデルの改善
- 予測単位の変更によるn-gramモデルの改善
- 予測単位の変更によるn-gramモデルの改善
- 連語登録による形態素解析システムJUMANの精度向上
- 表層表現を利用した日本語文章における後方照応表現の自動抽出
- 表層表現を利用した日本語文章における後方照応表現の自動抽出
- 日本語表層表現を手がかりとした名詞の指示性と数の推定
- 日本語表層表現を手がかりとした名詞の指示性と数の推定
- キャプションと記事テキストの最長一致文字列照合による報道番組と新聞記事との対応づけの自動化
- 形態素クラスタリングによる形態素解析精度の向上
- タグ付きコーパスからの統語規則の獲得
- 新春対談 彫刻家、東京藝術大学名誉教授・顧問 澄川喜一氏 国立国会図書館長 長尾真 日本の文化力再発見
- 電子出版と国立国会図書館
- 「AIマップ-自然言語へのアプローチ」に対するコメントと回答
- nグラム統計によるコーパスからの未知語抽出
- nグラム統計によるコーパスからの未知語抽出
- 対訳文章を利用した専門用語対訳辞書の自動作成 : 訳語対応における両立不可能性を考慮した手法について
- 談話管理理論を用いた対話処理 : 名詞句の解析と生成について
- マルチエージェントシステムに対する期待
- AIマップ : 自然言語へのアプローチ
- 京都大学統合情報通信システムKUINSの基本概念とシステム設計
- 電子図書館Ariadneの開発 (5) : —電子図書館をめぐる諸問題—
- 特別対談 新たな文化創造とクラウド化を展望する (特集 クラウド時代における電子ブックと流通問題)
- 電子図書館Ariadneの開発 (2) : —データの入力と編集—
- 情報学の明日を考える (特集 情報学の第4ステージ)
- 漢字対応の利用による日中対訳テキストの文対応付け
- 類似性に基づいた日韓対訳テキストの文対応
- 用例検索による韓日・日韓翻訳支援システム
- 日英対訳文間の構造照合
- 日本語構文解析システム「KNP」のハングル化とそれを用いた日本語から韓国語への対照分析
- 部分文字列情報の利用による日本語単語の高速検索
- 大規模日本語テキストのnグラム統計の作り方と語句の自動抽出
- 電子図書館Ariadneの開発 (4) : —読書支援機能—
- 新春対談 国立国会図書館蔵書のデジタル化とJIIMAの取組み
- 新春エッセー 国民読書年を迎えて
- 語彙化マルコフモデルによる英語品詞タグ付け
- 形態素bi-gramと品詞bi-gramの重ね合わせによる形態素解析
- 統計によるタグ付きコーパスからの統語規則の獲得
- 国立国会図書館の現状と将来[含 質疑応答] (特集 日本図書館研究会第52回(2010年度)研究大会) -- (シンポジウム 次代を切りひらく図書館の挑戦)
- 電子図書館Ariadneの開発 (3) : —検索支援機能—
- 大震災の記録保存に努力しよう
- 類似度からの検索質問生成による効率的類似用例検索
- 国立国会図書館の現状と将来(発表4,シンポジウム「次代を切りひらく図書館の挑戦」,第52回(2010年度)研究大会)
- 科学技術コモンズと情報知識学への期待
- ITUクラブ講演 電子書籍と読書端末
- デジタル・ネット時代の知の基盤を考える
- 新年のごあいさつ : 震災アーカイブの構築と新しいサービス
- 人工知能とは(4)(人工知能とは〔第4回〕)