単語親密度に基づく基本語彙の選定
スポンサーリンク
概要
- 論文の詳細を見る
This paper proposes a new method for selecting fundamental vocabulary. We are presently constructing the Fundamental Vocabulary Knowledge-base of Japanese that contains integrated information on syntax, semantics and pragmatics, for the purposes of advanced natural language processing. This database mainly consists of a lexicon and a treebank: Lexeed (a Japanese Semantic Lexicon) and the Hinoki Treebank. Fundamental vocabulary selection is the first step in the construction of Lexeed. The vocabulary should include sufficient words to describe general concepts for self-expandability, and should not be prohibitively large to construct and maintain. There are two conventional methods for selecting fundamental vocabulary. The first is intuition-based selection by experts. This is the traditional method for making dictionaries. A weak point of this method is that the selection strongly depends on personal intuition. The second is corpus-based selection. This method is superior in objectivity to intuition-based selection, however, it is difficult to compile a sufficiently balanced corpora. We propose a psychologically-motivated selection method that adopts word familiarity as the selection criterion. Word familiarity is a rating that represents the familiarity of a word as a real number ranging from 1 (least familiar) to 7 (most familiar). We determined the word familiarity ratings statistically based on psychological experiments over 32 subjects. We selected about 30,000 words as the fundamental vocabulary, based on a minimum word familiarity threshold of 5. We also evaluated the vocabulary by comparing its word coverage with conventional intuition-based and corpus-based selection over dictionary definition sentences and novels, and demonstrated the superior coverage of our lexicon. Based on this, we conclude that the proposed method is superior to conventional methods for fundamental vocabulary selection.
- 社団法人 人工知能学会の論文
- 2004-11-01
著者
-
金杉 友子
NTTアドバンステクノロジ株式会社
-
天野 成昭
日本電信電話(株)NTTコミュニケーション科学基礎研究所
-
笠原 要
長岡技術科学大学工学部電気系
-
天野 成昭
Nttコミュニケーション科学基礎研究所
-
天野 成昭
Ntt Basic Research Laboratories
-
天野 成昭
東京都老人総合研究所
-
佐藤 浩史
日本電信電話(株)コミュニケーション科学基礎研究所
-
佐藤 浩史
日本電信電話(株)nttコミュニケーション科学基礎研究所
-
笠原 要
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
天野 茂昭
東京都老人総合研究所
-
笠原 要
Nttコミュニケーション科学基礎研究所 知能情報研究部
-
金杉 友子
Nttアドバンステクノロジ(株)
-
天野 成昭
日本電信電話株式会社nttコミュニケーション科学基礎研究所
-
佐藤 浩史
日本電信電話(株):早稲田大学
関連論文
- 親密度別単語了解度試験用音声データセット(FW03)に収録された単音節音声の雑音下における認知閾
- 現代用語辞書を用いた流行コンセプト作成支援
- 言語発達における格助詞ガの初出月齢 : 述語のアスペクトと主体との関係による分類(人間による言語理解・言語処理)
- 感音性難聴者における高親密度語の単語了解度と単音節明瞭度
- 単語了解度試験におけるモーラ同定に対する親密度の影響
- 日本語の語彙特性データベース--読みの過程と心的辞書の解明を目指して (第1特集 読み書きにおける言語・認知神経心理学)
- ことば工学入門
- コンピュータ上の言語感覚実現に向けて : B級機関
- 日本語ツリーバンク「檜」 : 言語理解のためのコーパス(辞書,コーパス)
- 対乳児音声の発声速度の長期的変化(音声生成・知覚,聴覚心理,音声学・音韻論,一般)
- 現代用語辞書を用いた流行コンセプト作成支援
- 親密度と音韻バランスを考慮した単語了解度試験用リストの構築
- 親密度を統制した単語了解試験における音表提示表の影響
- 単語親密度に基づく基本語彙の選定
- 「基本語意味データベース:Lexeed」の構築(辞書,コーパス)
- 概念ベースから基本語彙知識ベースへ (ことば工学研究会(第16回)テーマ:ことばの辞書:概念ベースとその周辺)
- 「基本語彙知識ベース」の構想 (ことば工学研究会(第15回)テーマ:ことばの感覚/ことばと芸術)
- 関連語連想における単語親密度の影響 (ことば工学研究会(第13回)テーマ:ことばの扱い方)
- 単語親密度に基づく基本的語彙の選定
- 単語親密度に基づく基本的語彙の選定
- 常識概念体系のための基本語彙の選定 (ことば工学研究会(第12回)テーマ:ことばと身体性)
- 単語の関連性判別の分析--類義語,対義語,連想語 (ことば工学研究会(第9回)テーマ:コンピュータとことば "認知科学会「文学と認知・コンピュータ」研究分科会"との合同)
- 構音学習モデルに基づく幼児音化メカニズムの検討
- 言語発達における音声と動作の対応づけ能力の獲得時期(日本基礎心理学会第26回大会,大会発表要旨)
- 乳児における物体と運動の視覚認知発達(日本基礎心理学会第24回大会,大会発表要旨)
- 乳幼児の母音に対する周波数ピークの縦断的分析
- 先行母音長が促音の知覚に及ぼす影響
- 母子間音声コミュニケーションの発達 (第2部 第21回〔パフォーマンス教育協会〕コンベンションに見るパフォーマンス教育のヒント) -- (パフォーマンス教育の諸要因)
- B-7 乳児音声の基本周波数パタンの分析のための統計的手法(時系列モデル)(2003年度統計関連学会連合大会記録(日本統計学会第71回大会))
- 乳児音声の基本周波数パタン分析のための統計的手法
- 縦断的観察による語彙と文の獲得の定量的分析
- 親子の発声における基本周波数の相関
- 無声拍と同音語がアクセント知覚に及ぼす影響
- 単語親密度に基づいたアクセントの機能負担量
- EA2000-33 発話における強調表現の知覚 : 基本周波数による発話意図の識別
- 「ネットワーク型言葉遊び」の知識獲得への応用
- 「ネットワーク型言葉遊び」のコンテスト結果に関する考察
- 概念に基づく単語の類似性判別 : 応用論
- 日常語の意味が判別可能な「概念ベース」技術
- 概念ベースを用いた複合語概念の合成
- アバウト推論の「言葉遊び」への適用
- 概念ベースを用いた「要するに」の推定
- 単語の親密度が了解度に及ぼす影響
- 単語の親密度と音韻バランスを考慮した単語リストに関する一考察
- 「理系のための口頭発表術」, ロバート R.H. アンホルト著, 鈴木炎, イイイン・サンディ・リー訳, ブルーバックス(B-1584), 講談社, 2008年(私のすすめるこの一冊,コーヒーブレーク)
- 「図解表現ハンドブック(改訂版)」, 竹内元一, PHP研究所, 2003年(私のすすめるこの一冊,コーヒーブレーク)
- 単語親密度と加齢による聴力損失が残響及び騒音下における単語了解度に及ぼす影響
- 48カテゴリーによる健常高齢者の語想起能力の検討(福祉と言語処理, 一般)
- 48カテゴリーによる健常高齢者の語想起能力の検討(福祉と言語処理,一般)
- 48カテゴリーによる健常高齢者の語想起能力の検討(福祉と言語処理, 一般)
- 単語の聞き取りにおける親密度効果と心像性効果
- 文字呈示、音声呈示による日本語約5万語の心像性評価
- 漢字単語の音読に現れる加齢および言語性知能の影響
- 単語の聴取能力の加齢変化と, 単語の頻度・親密度・心像性
- 日本語単語の親密度、心像性、獲得年齢と読みの過程の関係
- 若年者と高齢者の単語親密度の差について
- 単語、非単語聴取時の誘発脳磁界反応
- 頭の中に単語はいくつある?
- 単語, 非単語の語彙判断における脳磁界
- 音韻/単語知覚過程の時間的側面
- 心的辞書に含まれる単語数の推定
- 修復させた母音間閉鎖子音の反応時間に基づく知覚過程の検討
- 単語知覚モデルの研究動向 (<特集>音声)
- NTT乳幼児音声データベースの構築(言語とコーパス,思考と言語一般)
- 音声単語認知における親密度と頻度の影響
- 日本語音声単語認知におけるネイバーフッドの影響
- 日本人乳児のバブリング音声における音節時間長の特徴
- 親密度別単語了解度試験用音声データセット2007(FW07)の作成(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 親密度別単語了解度試験用音声データセット2007(FW07)の作成(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 親密度別単語了解度試験用音声データセット2007(FW07)の作成(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 対乳児音声の発声速度の長期的変化
- AS-7-5 高齢者の音声単語了解度(AS-7.円滑なコミュニケーションと感情,シンポジウム)
- 音声単語認知の加齢変化(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 音声単語認知の加齢変化(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 音声単語認知の加齢変化(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 語音聴取域値に基づいたFW03単語音声の聴感レベル校正
- 幼児の発声単語と単語親密度データベース中の単語におけるモーラ頻度の相関
- コーパスを用いた形容詞の類似性判別方式
- 概念ベース研究のその後--概念粒度の研究と形容詞ベースの研究を中心に (ことば工学研究会(第5回)テーマ:ことばにおける身体性&感性)
- 助詞ハの獲得過程の初期に見られる特定の言語形式と談話機能に関する考察
- 音声知覚研究における留意点--吉田・桐谷論文へのコメント (特集:子どもの言語獲得)
- 単語母集団の大きさを変化させたときのユニークネス・ポイントの性質
- 母子間音声相互作用における発声間隔の発達的変化
- 母子間の音声相互作用における重複発声
- 単語親密度ランク間におけるバイモーラ頻度の相関
- 単語親密度ランク間におけるモーラ頻度の相関
- 親密度を統制した単語了解度試験に単語連想が及ぼす影響
- 日本語の単語同定においてアクセントの果たす機能負担量
- 親密度と単語の音韻バランスを統制した単語了解度試験用リストの構築
- 辞層における音素配列規則が日本語の母音の長さの知覚に及ぼす効果
- 展望 音声単語認知モデルの動向
- 時間伸縮音声中の音韻知覚に対する心的辞書情報による促進
- 頭の中に単語は幾つあるか?
- 即時反応課題と非即時反応課題におけるVCV音節中の破裂閉鎖子音の音韻修復
- 音韻知覚に対する心的辞書情報と調音結合情報の効果
- ことば遊びの世界 (ことば工学研究会(第3回)テーマ:"認知科学会「文学と認知・コンピュータ」研究分科会"との合同研究会)
- B級機関--コンピュータにおける「言語感覚」の目覚め (ことば工学研究会(第1回)テーマ:ことばって何??どうやって使うの??)
- ことばの総合政策--アバウト推論による流行ことば予測 (ことば工学研究会(第2回)テーマ:一般講演)
- 制約充足的手法を応用したクロスワードパズルの解法
- 韓国語母語話者における日本語の摩擦音「s」と破擦音「ts」の知覚・生成範疇境界