定型表現を利用した効率的な形態素解析の実現
スポンサーリンク
概要
- 論文の詳細を見る
定型表現は,慣用表現と並び文章中に頻繁に出現する表現である.また,この表現は,それ自体が独自の意味を持つものと,持たないものがあるが,一つのまとまった単位で処理することで,処理効率や精度を上げることができる.定型表現や慣用表現の利用は有効であるが,これらは,表現形式の客観的な定義が不明瞭なため,収集作業には時間と労力を要する.しかし,コーパスなどから自動収集する研究も多数報告されている.このような定型表現を,OCRや音声認識システムなどの自然言語処理システムに導入すると,以下のような長所を生じる.1)短い単語で検索された候補より,長い単語で検索された候補の方が情報量が多いため,各種処理システムの認識率や誤り訂正率を向上できる.2)単語レベルだけではなく,構文・意味解析を交えた文脈レベルの誤り訂正が実現できる.本稿では,有効とみられる付属語的定型表現の抽出結果,及び,それらの定型表現を利用した形態素解析手法について説明する.また,本手法の有効性を確認するため,約7万文のコーパスを対象にした実験結果を示す.更に,OCRの誤り訂正への応用も示す.
- 一般社団法人情報処理学会の論文
- 1995-09-20
著者
-
安藤 一秋
香川大学工学部
-
安藤 一秋
徳島大学 工学部 知能情報工学科
-
青江 順一
徳島大学 工学部 知能情報工学科
-
獅々堀 正幹
徳島大学 工学部 知能情報工学科
-
藤澤 貴之
徳島大学 工学部 知能情報工学科
関連論文
- 検索エンジンを利用した9ヶ国語作文支援ツール(ユビキタス・モバイル学習環境/一般)
- 日本語定型表現のパターン記述規則と効率的な照合アルゴリズム
- 意味変化率を考慮した文書短縮方法
- 日本語定型表現の分析と効率的照合アルゴリズム
- 活用語を含む助詞的定型表現の分析
- 食品の履歴情報とブログ上の評判情報の統合検索システムの開発(セッション2:履歴,状況・行動推定II)
- 検索エンジンを用いた英作文支援ツール(新しいインターネット技術の教育環境への利用/一般)
- Google Web APIsを利用した英文作成支援ツール(遠隔教育/一般)
- 講義映像配信システムにおける講義映像と資料の対応
- コンテスト形式による初級Cプログラミングの演習支援
- 複合語生成規則を用いたキーワード導出手法
- ET2009-125 Web検索を利用した9ヶ国語作文支援の改良(障害者教育・特別支援教育/一般)
- 書き方を練習する日本語CAIシステム
- 検索エンジンを利用した多言語作文支援ツール (生涯学習につながる初等中等教育機関へのICT学習支援/その他--理科離れ、物作り離れを防ぐICT)
- 履歴情報とブログ情報を用いたワイン検索システムの開発(セッション5 ことば)
- E-035 係り受け関係を利用した一般新聞記事を子供向けに言い換える知識の抽出(E分野:自然言語・音声・音楽,一般論文)
- J-039 検索エンジンを利用した9ヶ国語作文支援の拡張(J分野:ヒューマンコミュニケーション&インタラクション,一般論文)
- 検索エンジンを利用した多言語作文支援(ユビキタス学習環境/一般)
- D-15-16 検索エンジンと複数の言語資源を活用した英作文支援ツール(D-15.教育工学,一般講演)
- 北研二・津田和彦・獅々堀正幹(著), 情報検索アルゴリズム ,共立出版, 212p., 3,300円(税別) ISBN4-320-12036-1
- 多属性項目の履歴情報に基づく電子メイル文書のフィルタリング手法
- 多属性項目の履歴情報に基づく電子メイル文書のフィルタリング手法
- 各個人のプロファイルを用いたメイル文書のフィルタリング手法
- 履歴情報を考慮したメイル文書のフィルタリング手法
- D-020 WWW画像検索システムにおける有害画像フィルタリング手法(D分野:データベース)
- 分野連想語の出現位置に基づく話題分野の特定手法
- 転置ファイルによる大規模 n-gram データの検索システム
- 転置ファイルによる大規模 n-gram データの検索システム
- キーワードの遅延抽出を考慮した文書検索構造の効率的構成法
- 文書レイアウトにおける自動図表配置手法
- ストリングパターンマッチングマシンにおける検索キー追加方法
- LRパーサを用いた文字列置換アルゴリズム
- テキストと画像のクロスメディア情報検索に向けた画像キーワード登録システムの開発
- Earth Mover's Distance の高速検索ライブラリ fastEMD の開発
- 字幕付き映像データからの字幕領域の検出手法
- ETSI標準分散音声認識フロントエンドにおける入力系の周波数特性正規化手法
- MPEG映像データに対するカットシーンの高速検出手法
- 食品の履歴情報とブログ上の評判情報の統合検索システムの開発(セッション2:履歴,状況・行動推定II)
- K_047 WWW言語資源を利用した英文作成支援ツール : ユーザの語彙レベルに基づく適応型用例提示(K分野:ヒューマンコミュニケーション&インタラクション)
- F-013 暦に基づく時間指示表現に対する意味表現形式(F.人工知能)
- 暦に基づく時間指示表現に対する意味表現形式の提案(意味表現・データマイニング)
- D-4-10 Webマイニングのためのトピック主導型クローラの評価(D-4. データ工学,一般セッション)
- HTML形式の表構造に対する一索引化手法
- Web検索APIを用いた9ヶ国語作文支援ツール
- キーワード構成の分析とその応用
- 接続情報を加味した形態素辞書による形態素解析の高速化
- 定型表現を利用した効率的な形態素解析の実現
- LR(1)構文解析表の動的構成法
- 二つのトライを用いた自然言語辞書検索技法
- 知識表現モデルMERMにおける心理現象の一表現法
- ダブル配列による有限状態機械の記憶アルゴリズム
- 混合ガウス分布モデルを用いた画像検索
- Non-negative Matrix Factorization を用いたベクトル空間情報検索モデルの次元削減手法
- Simple PCAを用いたベクトル空間情報検索モデルの次元削減
- 分類知識表現を用いたキー検索アルゴリズムの決定法
- コンセプト・プロジェクションにおける関連性フィードバックを用いた概念ベクトルの更新手法
- 拡張ハッシングにおけるディレクトリの圧縮アルゴリズム
- 読みを付与するWeb読解支援システムを利用した授業支援の試み (ネットワークコンピューティングとこれからの教育・学習環境/一般)
- 小学生を対象とした新聞読解支援のための説明語抽出手法
- 小学生向けNIEを対象としたWeb新聞記事の推薦
- 読解支援における言語情報多重提示方式の試作(インタフェース技術と学習支援システム/一般)
- RN-002 ユーザの語彙力に適応した読みを付与するWeb読解支援システム(教育学習支援情報システム(1),N分野:教育・人文科学)
- N-005 調べ学習課題の自動生成に向けた学習課題の分析(コンピュータと教育,N分野:教育・人文科学)
- D-004 被災経験マイニングに向けたBlogフィルタリング(Web,D分野:データベース)
- D-001 テンプレートを用いたWebからの若者言葉の抽出手法の検討(Web,,D分野:データベース)
- D-003 料理レシピ群から代替・追加・省略可能な食材の抽出手法の検討(D分野:データベース)
- D-008 若者言葉の自動抽出に用いたテンプレート改良に関する検討(D分野:データベース)