日本語における付属語の現れ方と規則
スポンサーリンク
概要
- 論文の詳細を見る
日本語解析においては、「新聞記事は解析が難しい」「マニュアル類は解析が易しい」といったことがよく言われる。以前に行なった実験では、この「難しさ」「易しさ」は、形態素解析においては、その分野の文の固まりを処理する際に使用される規則の異なり数の伸びに現れていることが示された(文献[2])。簡単に言うと、「解析が難しい」と言われる新聞記事の処理に使われる規則の異なり数は、60,000語以上を処理した後でもほぼ一定の割合で伸び続けるが、マニュアルの処理に使われる規則の異なり数は、それより早い段階で、伸びがほとんど止まる。今回は、規則の異なり数の伸びの分野ごとの差が何に依存しているかを、4分類した規則の伸びを観察することにより推測する。また、その推測の結果を踏まえ、ある程度まとまった長さで、ある程度出現数が大きい付属語連鎖を獲得するための目安を提案する。データとして、日本経済新聞社説記事を約16000文、IBMのメインフレーム関係マニュアルを約4000文を使用した。解析に使用した形態素解析は、前回と同じものである(文献[4])。
- 一般社団法人情報処理学会の論文
- 1995-03-15
著者
関連論文
- 剖検記録の音声認識のための言語モデル作成
- 構造を仮定しない文解釈の一手法
- 形態素係り受けモデルによる構文解析
- 単語単位による日本語言語モデルの検討
- 単語を認識単位とした日本語の大語彙連続音声認識
- 岩波国語辞典を利用した語義タグ付きテキストデータベースの作成
- テキストマイニング技術を用いた企業評価分析 : 倒産企業の実証分析
- 開発者の視点からの機械翻訳システムの技術的評価 : テストセットを用いた晶質評価法
- 正規文法に基づく日本語形態素解析
- IBM電話音声自動応答システム(音声処理技術のデモの紹介)
- リストのラベルとして使われる丸括弧とリストの範囲
- 形式的でない表現における"ん""ちゃ""じゃ""きゃ"の接続上の性質
- "「」"で括られた表現の接続と係り受けの性質
- 翻訳精度評価手法BLEUの日英翻訳への適用
- 重要文と要約の差異に基づく要約手法の調査
- 単語を認識単位とした日本語大語彙連続音声認識
- 単語を認識単位とした日本語ディクテーションシステム
- 人の発声単位を考慮した日本語言語モデルの検討 : 日本語における単語とは
- 表層的な文脈情報を用いた自然な文生成の試み
- 知識ベースを利用した機械翻訳システムShalt2 ( 自然言語処理の実動システム)
- 日本語における付属語の現れ方と規則
- 英日機械翻訳システムShalt2の日本語生成文法
- 英日機械翻訳システムShalt2における並列句の取り扱い
- 日本語形態素解析用文法規則の使用状況
- 読点を伴う連体修飾の係り先
- 漸進的学習機能を備えた日本語形態素解析
- 日本語における文節間係り受け関係の統計的性質
- テキスト分析技術を用いた開発関連文書の文書品質の定量化(テーマセッション)
- 情報科学・工学, 私はこう考える : 自然言語処理, 私はこう考える
- 形態的情報を使った日本語辞書情報の整備
- ソフトウェア開発における文書成果物の分析技術とその活用