大語彙かな漢字変換 : 未登録語と区切り誤りの減少
スポンサーリンク
概要
- 論文の詳細を見る
従来、かな漢字変換システムは、限定された大きさの辞書と、無数のヒューリスティックルールという組み合わせを基本として進歩してきた。現在の主流である、10万語前後の単語辞書とヒューリスティックルールからなる方式において、文節単位の変換率は80〜85%程度であり、ほぼ限界に達している。しかし、まだユーザの修正作業が多く、一層の変換率向上が望まれている。筆者らは、変換率向上のための新しい方式として、数十万語以上の規模の単語辞書と、単語間の関係を限定する大規模な制約データを中心とする大語彙かな漢字変換方式を提案し、従来方式と比較しながら考察した。本稿では、大語彙かな漢字変換方式の概要を説明し、また、本方式が未登録語および変換率に与える効果を確認するために、大語彙(31万語)の単語辞書を試作して実験を行い、未登録語の出現率と、単語区切り正解率を調べたので報告する。
- 一般社団法人情報処理学会の論文
- 1990-09-04
著者
-
山田 洋志
日本電気株式会社サービスプラットフォーム研究所
-
福島 俊一
Nec情報通信メディア研究本部インターネットシステム研究所
-
福島 俊一
日本電気株式会社ヒューマンメディア研究所
-
山田 洋志
Nec第二システム事業本部オープン共通システム開発部
-
大山 裕
日本電気株式会社 C&Cシステム研究所
-
大山 裕
日本電気株式会社c&cシステム研究所
関連論文
- 日本語新聞記事からの固有名詞情報抽出
- 2C-3 利用者状況に適した方式で情報を推薦する「マルチモード推薦システム」の実現(コンテンツ推薦,一般セッション,データベースとメディア)
- 5B-6 行動情報を利用した携帯端末への情報配信システムアーキテクチャ(コンテンツ推薦,一般セッション,データベースとメディア)
- Web文書集合からの意見情報抽出と着眼点に基づく要約生成(Webマイニング)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- Web文書集合からの意見情報抽出と着眼点に基づく要約生成(Webマイニング)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- ペン校正支援システム
- 意見抽出を目的とした機械学習による属性-評価値対同定(属性抽出)
- 仮説生成と検証の効率的組合せに基づく手書き文字列読み取り向け知識処理方式
- 転置ファイルとビット配列を用いた高速文字列あいまい照合アルゴリズム
- 認識知識処理 (認識と制御技術 特集)
- ボトムアップ/トップダウン処理を融合した手書き文字列読み取り知識処理
- 手書き文字列読み取りのための単語列探索アルゴリズム : 文字タグ法
- 手書き文字列読み取りのための単語連鎖制約に基づく効率的探索と棄却
- 効率的探索とトップダウン的検証を組み合わせた手書き住所読み取り知識処理
- 文字タグ法による手書き住所読み取りの評価
- A-4 テキストからの類義語抽出手法とその評価(概念と言語(I))
- 手書き文字列読み取りのための単語列探索アルゴリズム : 文字タグ法
- 手書き住所読取りのための町名検索アルゴリズム : 文字タグ法
- 手書き住所読取りにおけるパタン処理と連携した住所知識処理方式
- 共起類似性に基づく同義語の抽出
- D-2 Support Vector Machineを用いた地域情報ページの自動分類(Webコンテンツ処理,D.データベース)
- モバイルサーチエンジンWithAirの試作と評価
- モバイルサーチエンジンWithAirの試作と評価
- 情報検索システム評価用ベンチマークVer.1.0(BMIR-J1)について (メディア統合および環境統合のための高機能データベースシステム、および一般)
- 日本語情報検索システムのためのベンチマークの構築
- 5B-7 携帯端末へのPush配信サービスにおける配信スケジュール方式(コンテンツ推薦,一般セッション,データベースとメディア)
- 5B-1 大規模テキストから位置情報および特徴語を抽出するルールの検討(コンテンツ推薦,一般セッション,データベースとメディア)
- 意見抽出のための評価表現の収集
- インターネットからの評判情報検索(WWW上の情報の知的アクセスのためのテキスト処理)
- テキストマイニングによる評価現象の収集
- D-1 意見分析システムにおける意見抽出方式の検討と評価(Webコンテンツ処理,D.データベース)
- インターネットからの評判情報検索
- インターネットからの評判情報検索
- 5B-5 行動履歴を利用したコンテンツ推薦方式の提案(コンテンツ推薦,一般セッション,データベースとメディア)
- キーワード方式べた書き文かな漢字変換システムにおける付属語情報を用いた単語のあてはめ
- べた書き文の単語分割におけるエラーの抽出法と自動訂正
- 日本語文の誤り検出に関する研究
- 文章解析アクセラレータ(2) : 接続検定マシンMONCの試作と評価
- 形態素抽出マシンMEX-IIの試作と評価
- 形態素抽出マシンMEX-IIの概要
- ア***ロセッサによる文脈自由言語の並列認識アルゴリズム
- 文章解析アクセラレータ(1) : 形態素抽出マシンの試作
- 多重照合型形態素抽出方式に関する検討
- 文字列検索LSIを用いた国語辞書システムの構築法
- 文構造を有する日本語テキストエディタJESS
- 日本語文章作成支援システムCOMET
- 校正支援システムSt.WORDSの文書検査機能
- 辞書およびパターンマッチルールの増強と品質強化に基づく日本語固有表現抽出
- Webページからのタイプ別情報抽出・分類方式
- Webページからのタイプ別情報抽出・分類方式
- 1N-3 日本語テキストからの固有表現抽出システムの開発と評価
- 2P-2 近接演算による数値情報検索の精度改善
- 1U-3 テキスト中の数値表現を用いた情報検索方式の評価
- 数値情報を用いたテキスト検索方式の提案と評価
- インターネット多角的検索システムOTROS : データベースを用いたクエリ展開方式の提案
- インターネット多角的検索システムOTROS : 数値情報の抽出と検索
- インターネット多角的検索システムOTROS : 全体の概要と構成
- 固有名詞分類属性を利用した情報検索
- 予測ペン入力インタフェースとその手書き操作削減効果
- 予測ペン入力インタフェースとその手書き操作削減効果
- ペンベース文書作成(2) : 予測ペン入力方式
- ペンベース文書作成(1) : 試作システム
- 入力文字列予測表示を導入した日本語文章の入力法
- 自然言語処理を用いたペン入力効率向上手法の提案
- 大語彙かな漢字変換 : 未登録語と区切り誤りの減少
- 招待講演:新世代検索ポータル技術 (2001年情報学シンポジウム講演論文集--21世紀の情報化社会・ネットビジネスを支える情報学/情報技術) -- (セッション5:情報技術の視点から)
- WWWサーチエンジン (特集 情報検索)
- Webサーチエンジンの基本技術と最新動向(上)基本技術
- Webサーチエンジンの基本技術と最新動向(下)最新技術
- WWW情報検索技術と評価の問題(情報検索システムの力くらべ : テストコレクションによる評価)
- 農業情報の検索・ナビゲーション (特集 情報化がもたらす新しい農業・農村)
- 専用ハードウェアを用いた形態素解析器の開発
- 検索エンジンの仕組みと技術の発展(インターネット検索エンジン)
- モバイルユーザ向け情報選別配信技術
- 目的および個人に特化したサーチエンジンの開発 (「Webシステムにおける情報獲得支援技術」)
- 文字ベース凝縮テキストによる全文検索方式の評価
- 混ぜ書き対応単語辞書の作成とその応用
- 大語彙辞書を用いたかな漢字変換についての考察
- 文書作成履歴を利用した校正支援機能
- FEP型校正支援システムの試作
- 連語辞書の自動作成と評価
- 漢字混じりかな漢字変換用単語辞書の作成
- 日本語解析性能と単語辞書との関係についての考察
- 大語彙かな漢字変換 : 連語の効果について
- マーク付けテキストを対象とした文章検査
- 大語彙かな漢字変換 : 日本語テキストによる文章解析評価