長い品詞列を文書特徴とした母語話者英文書・非母語話者英文書の判別
スポンサーリンク
概要
- 論文の詳細を見る
We propose using long and low-frequency part of speech (POS) strings for document separation between native English documents and non-native English documents.The long POS strings were ignored in previous works because their frequencies in training data are too small to estimate their probabilities. Meanwhile, a research of language identification showed that the long and low-frequency byte strings were useful for language identification among similar languages. There are some similarity between language identification and document separation between native English documents and non-native English documents, for example long POS strings are more peculiar to one class than short ones, though there is a difference between POS and byte. Therefore, we can expect higher accuracy by using long and low-frequency POS strings. Some experiments are described in this paper. These experiments show that the proposed method has higher accuracy than previous ones.
- 九州大学の論文
著者
-
青木 さやか
新日鉄ソリューションズ(株)
-
行野 顕正
株式会社ジャストシステム
-
行野 顕正
九州大学大学院システム情報科学府
-
青木 さやか
九州大学大学院システム情報科学府知能システム学専攻
-
谷川 龍司
九州大学大学院システム情報科学府知能システム学専攻
関連論文
- 仮説検定に基づく英文書の母語話者性の判別
- 統計的アプローチによる英語スラッシュ・リーディング教材の自動生成(自然言語)
- 低頻度byte列を活用した言語識別(自然言語)
- LE_004 言語識別技術を応用した英語における母語話者文書・非母語話者文書の判別(E分野:自然言語)
- 長い品詞列を文書特徴とした母語話者英文書・非母語話者英文書の判別