異なるデータ長に対応したデータ圧縮による類似データ同定 : 近代日本文学データの著者推定による検証(セッション1: 言語情報・情報検索)
スポンサーリンク
概要
- 論文の詳細を見る
Benedettoらによる圧縮プログラムを用いた類似データの同定手法は高い精度を出しているにも関わらず、その後の研究が十分に行われてきたとはいえない。本研究では彼らの手法の欠点を改良した圧縮改善率からの推定手法を提案し、日本語データへの応用可能性を検証した。第一に、先行研究と同様にテキストを加工し固定長データを用いて、第二に、何も加工しない可変長データを用いて実験を行った。前者については50のテスト集合に対する平均成功率はBenedettoらの手法が90.5%、本研究が提案する圧縮改善率からの手法が97.7%となり、先行研究での最高値96.0%を上回る結果が得られた。また、圧縮改善率による手法はデータが短い場合にも他の手法に比べて性能劣化がほとんど起こらないことが明らかとなった。後者の実験についても圧縮改善率による手法は95.7%と高い成功率が得られた。
- 2005-05-19
著者
関連論文
- プーリング手法を用いた学術論文の自動判別実験(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- プーリング手法を用いた学術論文の自動判別実験(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- 『時事新報』初期の社説の著者推定
- オープンアクセスを想定した日本語学術論文ファイルの自動判定(デジタルアーカイブの応用,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- オープンアクセスを想定した日本語学術論文ファイルの自動判定(デジタルアーカイブの応用,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- Webページの有用性に関する分析 : 特徴語の抽出と被リンク数の比較(Webマイニング)
- WWWにおける有用性の高いページの特定手法について
- 日本語学術論文PDFファイルの自動判定
- WWWページの自動分類 : NDCの分類体系とYahooのカテゴリを使った分類
- 学術情報流通における深層ウェブの実態--機関リポジトリに収録された文献を用いた調査
- 異なるデータ長に対応したデータ圧縮による類似データ同定 : 近代日本文学データの著者推定による検証
- 異なるデータ長に対応したデータ圧縮による類似データ同定 : 近代日本文学データの著者推定による検証(セッション1: 言語情報・情報検索)
- 異なるデータ長に対応したデータ圧縮による類似データ同定 : 近代日本文学データの著者推定による検証(セッション1: 言語情報・情報検索)
- Web調査におけるサンプル集合の収集法 (佐賀健二先生退職記念号)
- 情報検索における順位付け出力の優位性 : 戦略的な検索行動として最適採餌理論を導入した場合
- インタ-ネットのサ-チエンジンの評価尺度 (『1998年情報学シンポジウム』プログラム--WWW情報検索・電子図書館・セキュリティ・著作権・マルチメディア情報流通・感性情報処理) -- ((セッション8)WWW情報検索)
- インターネットのサーチエンジンの評価尺度 : ESL (Expected Search Length) を使った検索実験
- 絵画データベースの検索手法 : ベクトル型検索手法の可能性
- ベクトル型検索手法による絵画データベースの検索
- 複数の圧縮プログラムを用いた近代日本文学の著作推定
- 深層ウェブの実態とその要因 : 機関リポジトリに登録された文献を用いた調査
- 図書館はどのような本を所蔵しているか : 2006年上半期総刊行書籍を対象とした包括的所蔵調査
- 10E06 アクティブラーニングを促進するための新しいソーシャルラーニングシステムの開発・評価(高等教育の実践と研究(教育システム、IR、eラーニング、教員研修等含む),課題研究)
- 構造と構成要素に基づく学術論文の自動判定