Bigramによるオンライン漢字認識の文脈後処理手法
スポンサーリンク
概要
- 論文の詳細を見る
文字遷移確率モデルによる後処理は文節等が終了しなくとも処理が可能なため,辞書引き法と比較して実時間性の要求が大きいオンライン文字認識の後処理に適している.日本語では少数の表音文字(仮名)と数千個の表意文字(漢字)が併用される.このため日本語を遷移確率モデル(n-gram)で記述しようとすると,漢字に対してはBigramですら相当量の記憶容量と学習用テキストを必要とし,かつ仮名に対しては(nを大きくとらないと)十分な制約にならないというアンバランスが発生する.そこで文字遷移確率に品詞を属性として導入して,仮名に対してはより強い制約とすること,および漢字は品詞ごとのマクロ文字にグルーピング,縮退させることにより,このアンバランスを解消する手法を提案し,日本語のBigramを用いた効果的な文字認識後処理法を実現した.新聞約300万字を学習用テキストに用いた実験の結果,Perplexityが100以下になり,正解が候補内にある内の約半分が救済できることがわかった.
- 一般社団法人情報処理学会の論文
- 1993-09-16
著者
関連論文
- 剖検記録の音声認識のための言語モデル作成
- 単語クラスタリングによる確率的言語モデルの分野適応
- 電話音声による列車時刻問合せシステムの評価
- LSAにもとづく電話音声情報検索システム
- 子供音声データベース
- 構造を仮定しない文解釈の一手法
- 自由発話向け言語モデルの現状と課題
- 講義コーパスを用いた自由発話の大語彙連続音声認識(音声情報処理 : 現状と将来技術論文特集)
- 形態素係り受けモデルによる構文解析
- 2000-SLP-32-3 構文構造を反映した確率的言語モデル
- 放送大学コーパスを用いた自由発話の大語彙連続音声認識
- 口語体言語モデルのためのコーパス
- 単語を認識単位とした日本語の大語彙連続音声認識 (音声言語情報処理)
- 音声ワープロ : 過去・現在・未来
- 放送音声の書き起こしに関する検討
- 音声認識・合成によるホームページの閲覧方式
- 単語単位による日本語言語モデルの検討
- ニュース音声書き起こしシステムに関する検討
- 単語を認識単位とした日本語の大語彙連続音声認識
- 電話音声による列車時刻問合せシステムの評価
- 日本語自由発話電話音声からの固有表現抽出
- 音声とテキストを用いた認識単語辞書の自動構築
- オンライン文字認識における後処理 : 住所・姓名の文字補完機能
- カナ姓名のペン入力後処理における予測処理について
- 単語を認識単位とした日本語大語彙連続音声認識
- 単語を認識単位とした日本語ディクテーションシステム
- 人の発声単位を考慮した日本語言語モデルの検討 : 日本語における単語とは
- 単語を認識単位とした日本語ディクテーションシステム
- 口述筆記や音声対話,音声自動翻訳に実用化されはじめた 声認識技術の基礎と応用プログラム開発手法 (特集 マルチメディア/インタ-ネット時代の必須技術となる 圧縮/認識/合成を追求する音声処理の徹底研究)
- 音声認識の最新技術--日本語ディクテ-ションプログラム
- N-gramを用いた日本語テキストの単語単位への分割
- クラスに基づく言語モデルのための単語クラスタリング
- 離散単語発生による日本語ディクテーションシステムについて
- 確率文法を用いた文書論理構造の解釈法
- 文書の論理構造を解釈する一手法
- 正規表現を辞書項目とする形態素解析辞書の構成と利用
- オンライン文字認識を用いた漢字住所入力
- Bigramによるオンライン漢字認識の文脈後処理手法
- OCR入力された日本話文の誤り検出と自動訂正