日本語形態素解析用文法規則の使用状況
スポンサーリンク
概要
- 論文の詳細を見る
最近の自然言語処理においては、文法の巨大化傾向や、それによって生じる無駄がよく指摘される。こういった問題を解決するために、例えば、規則のコストを調整する方法等が研究されている。しかし、文法の縮小と精度の関係や、解析結果分析の際の、《安定しているデータ》のための必要量の基準、更には「あるドメインは解析しやすい/しにくい」といった基準などは、非常に重要であるにも関わらず、あまり明らかではない。本稿では、あるドメインの処理における日本語形態素解析の文法規則の使用頻度と出現時点、および、各ドメインに共通に使われる規則などについて調査すると同時に、解析しやすさ/しにくさなどの観点について考察する。データとして、読売新聞社説記事を約4,500文、IBMのメインフレーム関係のマニュアルを約4,000文、UNIX系のマニュアルを約4,800文使用した。これらのデータを形態素解析する際に使用した規則を調べ、その頻度や共通部分について調査した。使用した形態素解析システムは、3型文法で書かれた規則を、約5,000持っている。
- 一般社団法人情報処理学会の論文
- 1993-09-27
著者
関連論文
- 剖検記録の音声認識のための言語モデル作成
- 構造を仮定しない文解釈の一手法
- 形態素係り受けモデルによる構文解析
- 単語単位による日本語言語モデルの検討
- 単語を認識単位とした日本語の大語彙連続音声認識
- 岩波国語辞典を利用した語義タグ付きテキストデータベースの作成
- テキストマイニング技術を用いた企業評価分析 : 倒産企業の実証分析
- 開発者の視点からの機械翻訳システムの技術的評価 : テストセットを用いた晶質評価法
- 正規文法に基づく日本語形態素解析
- IBM電話音声自動応答システム(音声処理技術のデモの紹介)
- リストのラベルとして使われる丸括弧とリストの範囲
- 形式的でない表現における"ん""ちゃ""じゃ""きゃ"の接続上の性質
- "「」"で括られた表現の接続と係り受けの性質
- 翻訳精度評価手法BLEUの日英翻訳への適用
- 重要文と要約の差異に基づく要約手法の調査
- 単語を認識単位とした日本語大語彙連続音声認識
- 単語を認識単位とした日本語ディクテーションシステム
- 人の発声単位を考慮した日本語言語モデルの検討 : 日本語における単語とは
- 表層的な文脈情報を用いた自然な文生成の試み
- 知識ベースを利用した機械翻訳システムShalt2 ( 自然言語処理の実動システム)
- 日本語における付属語の現れ方と規則
- 英日機械翻訳システムShalt2の日本語生成文法
- 英日機械翻訳システムShalt2における並列句の取り扱い
- 日本語形態素解析用文法規則の使用状況
- 読点を伴う連体修飾の係り先
- 漸進的学習機能を備えた日本語形態素解析
- 日本語における文節間係り受け関係の統計的性質
- テキスト分析技術を用いた開発関連文書の文書品質の定量化(テーマセッション)
- 情報科学・工学, 私はこう考える : 自然言語処理, 私はこう考える
- 形態的情報を使った日本語辞書情報の整備
- ソフトウェア開発における文書成果物の分析技術とその活用