日本語学術論文PDFファイルの自動判定
スポンサーリンク
概要
- 論文の詳細を見る
原著論文As open-access policies gain acceptance, an increasing number of researchers are contributing their papers to publicly accessible web sites (i.e. self-archiving). Theoretically, these papers are accessible from standard search engines, but they tend to be obscured by other contents on the web. The purpose of this research is to develop a system that can automatically detect academic articles and/or quasi-academic articles on the web. This paper describes experiments that were conducted on the performance of various classifiers and the results are compared in terms of precision, recall, and F-measure. The classifiers use attributes such as terms in PDF files and empirical rules. The results suggest the effciency of a ranked output system which has several phases to identify academic articles.オープンアクセス環境が進展するにつれ、セルフアーカイビングの形式で自らの研究成果を公開する研究者が増加している。そのような成果は、従来のすべてのウェブを対象とする検索エンジンからもアクセスが可能ではあるが、検索結果中の他のものに埋没してしまうことが多い。そこで、本研究ではウェブコンテンツ中からの学術論文、あるいは論文に準ずるコンテンツを判定するシステム構築を目指し、SVM など、多くの手法を用いて自動判定実験を行った。自動判定の手がかりとなる属性群としてはファイル中に出現する語と経験的なルール群を用いた。実験結果からは、段階的な論文判定を行うことで、学術情報専門の検索システム構築が実現可能であることが示唆された。
- 三田図書館・情報学会の論文
著者
関連論文
- プーリング手法を用いた学術論文の自動判別実験(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- 目次と帯を用いた図書の自動分類(情報検索・分類,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- 日本語テキストの自動分類のための特徴素抽出手法の比較
- 人の価値観を表すカテゴリを対象にした複数カテゴリへの自動分類の試み
- プーリング手法を用いた学術論文の自動判別実験(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- 『時事新報』初期の社説の著者推定
- オープンアクセスを想定した日本語学術論文ファイルの自動判定(デジタルアーカイブの応用,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- 目次と帯を用いた図書の自動分類(情報検索・分類,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- オープンアクセスを想定した日本語学術論文ファイルの自動判定(デジタルアーカイブの応用,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- Webページの有用性に関する分析 : 特徴語の抽出と被リンク数の比較(Webマイニング)
- WWWにおける有用性の高いページの特定手法について
- 日本十進分類法と基本件名標目の相互マッピングの試み
- テキスト自動分類の概要(情報のフィルタリング)
- 日本語学術論文PDFファイルの自動判定
- テキストの自動分類に関わる諸要素
- WWW上のOPACにおける既知事項検索の諸問題
- NTCIR-3 WEB : Web 検索のための評価ワークショップ(電子文書処理)
- Web検索のための評価ワークショップに適したシステム評価手法
- 仮想評価法による公共図書館の経済評価
- WWWページの自動分類 : NDCの分類体系とYahooのカテゴリを使った分類
- 学術情報流通における深層ウェブの実態--機関リポジトリに収録された文献を用いた調査
- 公立図書館の蔵書構成比と貸出規則に関する実態調査
- 動向レビュー 図書館のもたらす経済効果
- 公共図書館の生産関数と効率性の分析
- 図書館評価研究における経営学的アプローチ (特集 図書館パフォーマンス指標と経営評価の国際動向)
- 異なるデータ長に対応したデータ圧縮による類似データ同定 : 近代日本文学データの著者推定による検証
- 異なるデータ長に対応したデータ圧縮による類似データ同定 : 近代日本文学データの著者推定による検証(セッション1: 言語情報・情報検索)
- 異なるデータ長に対応したデータ圧縮による類似データ同定 : 近代日本文学データの著者推定による検証(セッション1: 言語情報・情報検索)
- Web調査におけるサンプル集合の収集法 (佐賀健二先生退職記念号)
- 情報検索における順位付け出力の優位性 : 戦略的な検索行動として最適採餌理論を導入した場合
- テキストの自動分類の要素分析的アプローチ
- 第55回日本図書館情報学会研究大会シンポジウム記録 : 「図書館情報学におけるエビデンスベーストアプローチ」
- インタ-ネットのサ-チエンジンの評価尺度 (『1998年情報学シンポジウム』プログラム--WWW情報検索・電子図書館・セキュリティ・著作権・マルチメディア情報流通・感性情報処理) -- ((セッション8)WWW情報検索)
- インターネットのサーチエンジンの評価尺度 : ESL (Expected Search Length) を使った検索実験
- 絵画データベースの検索手法 : ベクトル型検索手法の可能性
- ベクトル型検索手法による絵画データベースの検索
- 公共図書館の最適規模に関する実証的研究
- 公共図書館における費用便益分析
- 大学図書館効果の次元
- 表示媒体が文章理解と記憶に及ぼす影響-電子書籍端末と紙媒体の比較-
- 複数の圧縮プログラムを用いた近代日本文学の著作推定
- 九州大学大学院ライブラリーサイエンス専攻の概要と附属図書館との連携 (特集 図書館職員の研修)
- 深層ウェブの実態とその要因 : 機関リポジトリに登録された文献を用いた調査
- 図書館はどのような本を所蔵しているか : 2006年上半期総刊行書籍を対象とした包括的所蔵調査
- テキストの自動分類をめぐる現況 (特集 分類新時代)
- 図書館の貸出履歴を用いた図書推薦システムの有効性検証
- 所蔵状況による九州地域図書館システムの分析
- 図書館はどのような本を所蔵しているか : 2006年上半期総刊行書籍を対象とした包括的所蔵調査
- 図書館の貸出履歴と書誌情報を用いた図書推薦システムの有効性
- 10E06 アクティブラーニングを促進するための新しいソーシャルラーニングシステムの開発・評価(高等教育の実践と研究(教育システム、IR、eラーニング、教員研修等含む),課題研究)
- 構造と構成要素に基づく学術論文の自動判定