単語親密度に基づく基本語彙の選定
スポンサーリンク
概要
- 論文の詳細を見る
This paper proposes a new method for selecting fundamental vocabulary. We are presently constructing the Fundamental Vocabulary Knowledge-base of Japanese that contains integrated information on syntax, semantics and pragmatics, for the purposes of advanced natural language processing. This database mainly consists of a lexicon and a treebank: Lexeed (a Japanese Semantic Lexicon) and the Hinoki Treebank. Fundamental vocabulary selection is the first step in the construction of Lexeed. The vocabulary should include sufficient words to describe general concepts for self-expandability, and should not be prohibitively large to construct and maintain. There are two conventional methods for selecting fundamental vocabulary. The first is intuition-based selection by experts. This is the traditional method for making dictionaries. A weak point of this method is that the selection strongly depends on personal intuition. The second is corpus-based selection. This method is superior in objectivity to intuition-based selection, however, it is difficult to compile a sufficiently balanced corpora. We propose a psychologically-motivated selection method that adopts word familiarity as the selection criterion. Word familiarity is a rating that represents the familiarity of a word as a real number ranging from 1 (least familiar) to 7 (most familiar). We determined the word familiarity ratings statistically based on psychological experiments over 32 subjects. We selected about 30,000 words as the fundamental vocabulary, based on a minimum word familiarity threshold of 5. We also evaluated the vocabulary by comparing its word coverage with conventional intuition-based and corpus-based selection over dictionary definition sentences and novels, and demonstrated the superior coverage of our lexicon. Based on this, we conclude that the proposed method is superior to conventional methods for fundamental vocabulary selection.
- 社団法人 人工知能学会の論文
- 2004-11-01
著者
-
金杉 友子
NTTアドバンステクノロジ株式会社
-
天野 成昭
日本電信電話(株)NTTコミュニケーション科学基礎研究所
-
笠原 要
長岡技術科学大学工学部電気系
-
天野 成昭
Nttコミュニケーション科学基礎研究所
-
天野 成昭
Ntt Basic Research Laboratories
-
天野 成昭
東京都老人総合研究所
-
佐藤 浩史
日本電信電話(株)コミュニケーション科学基礎研究所
-
佐藤 浩史
日本電信電話(株)nttコミュニケーション科学基礎研究所
-
笠原 要
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
天野 茂昭
東京都老人総合研究所
-
笠原 要
Nttコミュニケーション科学基礎研究所 知能情報研究部
-
金杉 友子
Nttアドバンステクノロジ(株)
-
天野 成昭
日本電信電話株式会社nttコミュニケーション科学基礎研究所
-
佐藤 浩史
日本電信電話(株):早稲田大学
関連論文
- 親密度別単語了解度試験用音声データセット(FW03)に収録された単音節音声の雑音下における認知閾
- 現代用語辞書を用いた流行コンセプト作成支援
- 言語発達における格助詞ガの初出月齢 : 述語のアスペクトと主体との関係による分類(人間による言語理解・言語処理)
- 感音性難聴者における高親密度語の単語了解度と単音節明瞭度
- 単語了解度試験におけるモーラ同定に対する親密度の影響
- 日本語の語彙特性データベース--読みの過程と心的辞書の解明を目指して (第1特集 読み書きにおける言語・認知神経心理学)
- ことば工学入門
- コンピュータ上の言語感覚実現に向けて : B級機関
- 日本語ツリーバンク「檜」 : 言語理解のためのコーパス(辞書,コーパス)
- 対乳児音声の発声速度の長期的変化(音声生成・知覚,聴覚心理,音声学・音韻論,一般)