削減コーパスのパープレキシティ(第15回情報論的学習理論ワークショップ)
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,計算領域を確保するために低頻度語を削除したコーパス(文書集合)における語彙数とパープレキシティの関係を考える.コーパスがZipf則に従うという仮定のもとで理論的解析を行い,k-グラムモデルとトピックモデルのパープレキシティが特定の条件下では削減後の語彙数に関するべき乗則に近似的に従うことを証明する.この結果は,低頻度語は統計モデルの学習結果に大きな影響を及ぼさないという我々の直感に理論的根拠を与える.得られた結果について人工コーパス上の実験を行い理論の正しさを確認し,実コーパス上の実験により理論値と実測値の差を議論する.
- 2012-10-31
著者
関連論文
- D-20-4 重み付きz-ラベルによる半教師あり潜在的ディリクレ配分法(D-20.情報論的学習理論と機械学習,一般セッション)
- 論理制約付きトピックモデルのためのディリクレ森事前分布構成法 (情報論的学習理論と機械学習)
- 論理制約付きトピックモデルのためのディリクレ森事前分布構成法(機械学習とその応用)
- 削減コーパスのパープレキシティ(第15回情報論的学習理論ワークショップ)