収集語彙の母集団覆内率推定値の誤差の分散推定法の改善
スポンサーリンク
概要
- 論文の詳細を見る
仮名漢字変換システムや機械翻訳システムなどの自然言語処理システムにおいて, 用語辞書などのテーブルウェアは, そのシステムの処理精度に大きく影響を与える一つの要因である. 処理中の未格納語へのヒット率(テーブルウェアの覆外率と呼ぶ)が小さいことが強く要求される. 無作為に集められた語の集合が母集団に対してもつ覆外率D_<0,N>の推定には, D_<0,N>=C_<1,N+1>/(N+1)なる推定式が用いられる. ここにC_<1,N>は語彙調査で1回出現語の数であり, Nは標本の大きさである. この推定式の誤差w_Nの分散V[w_N]についてはRobbinsの粗い評価式がある. また辞書の大きさに関係する異なり語数k_Nの分散V[k_N]については水谷の理論式がある. 本報告では語彙調査で得られる統計量だけからV[w_N]およびV[k_N]を推定する方法を提案し, モンテカルロ法によって提案推定式の検証を行った. 検証に用いた母集団の場合, 提案推定式によって, 覆外率の推定誤差の標準偏差σ[w_N]の精度はRobbinsの評価式から1桁以上改善されること, また異なり語数の標準偏差σ[k_N]の上界は真値からの相対誤差が20%以下であることを示した. 提案推定式の適用はν回出現語数C_<ν,N>(ν≧2)がC_<1,N>を超えない程度の大きさの場合に限られるが, 語の出現率分布関数の形にはよらない推定式である.
- 一般社団法人情報処理学会の論文
- 1984-07-15