高信頼パーサとプレインテキストコーパスを利用した品詞タグ付け改良規則の自動獲得(<特集>21世紀のグループウェア)
スポンサーリンク
概要
- 論文の詳細を見る
大規模コーパスから言語規則や言語知識を獲得するアプローチは, 人手による規則開発や知識収集の限界を打ち破るうえでも重要であるが, 大規模なタグ付けコーパスを人手を介して準備する手法は, そのコストからいってまだ実際的でない.本論文では, プレインテキストコーパスから, 既存の品詞タガーの精度を向上させる品詞判定規則の自動獲得を行う方式を提案する.本方式は, APRAS(Automatic POS Rule Acquisition System)と呼ぶシステムに適用されており, 既存の機械翻訳システムの品詞タグ付け規則と構文解析規則という異種の言語規則を組み合わせ利用して, 大規模コーパスから品詞判定規則を抽出する.大規模な英文記事コーパスを対象とした実験の結果, 獲得された規則は, トレーニングコーパスにない文の1.7%に対して適用され, そのうちの78.4%のタグ付け結果に改善が見られた.また, 規則対象文のタグ付け処理と構文解析処理にたいして, 15.5%の速度向上が見られ, 構文解析可能な文の数は, 8.0%増加するという結果を得た.
- 社団法人情報処理学会の論文
- 2001-11-15
著者
-
小野 顕司
株式会社東芝研究開発センター:(現)知識メディアラボラトリ
-
平川 秀樹
株式会社東芝研究開発センター
-
吉村 裕美子
株式会社東芝研究開発センター
-
吉村 裕美子
株式会社東芝研究開発センター:(現)知識メディアラボラトリ
関連論文
- 高信頼パーサとプレインテキストコーパスを利用した品詞タグ付け改良規則の自動獲得(21世紀のグループウェア)
- 概念体系を用いた概念抽象化手法と語義判定におけるその有効性の評価(自然言語)(コラボレーションアートとネットワークエンターテイメント)
- 特集「次世代ヒューマンインタフェース・インタラクション」の編集にあたって
- 理解容易性を指向した訳語/統語構造選択規範に基づく文生成
- 選好依存文法(PDG)における文解析能力の評価方式について(自然言語)
- 最適解探索に基づく日本語意味係り受け解析