日本語テキストの自動分類のための特徴素抽出手法の比較
スポンサーリンク
概要
- 論文の詳細を見る
日本語テキストを対象に、自動分類において、分類の手がかりとなる特徴素の抽出手法の分類性能を比較した。本実験では、テキストから特徴素を抽出する手法として、形態素解析を用いて抽出する単語ベースの方法とN-gramによって抽出する文字列ベースの方法をもとにした6つの手法を比較した。その結果、単語ベースの方法に比べ、bigram、trigramなど文字列ベースによる特徴素抽出手法を用いた場合の分類性能が高かった。さらに、分類性能に影響した可能性がある特徴素を定義し、それらの特徴素を文字種ごとに分類した結果、漢字のみからなる特徴素、漢字と助詞の組み合わせ、漢字と記号の組み合わせからなる特徴素の割合が高いことがわかった。
- 社団法人情報処理学会の論文
- 2002-09-17
著者
-
辻 慶太
筑波大学大学院 図書館情報メディア研究科
-
辻 慶太
国立情報学研究所
-
TSUJI Keita
National Institute of Informatics (NII)
-
石田 栄美
国立情報学研究所
-
辻 慶太
筑波大学大学院図書館情報メディア研究科
-
辻 慶太
筑波大学図書館情報メディア系
関連論文
- 異なる学問分野のコーパスを利用した専門用語抽出手法の提案
- 〈原著論文〉司書資格と図書館に関する知識・モチベーションの関係
- プーリング手法を用いた学術論文の自動判別実験(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- 目次と帯を用いた図書の自動分類(情報検索・分類,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- 司書資格取得者に対する追跡調査--仕事・満足度を中心として
- Morpho-Syntactic Rules for Detecting Japanese Term Variation: Establishment and Evaluation
- 重要な専門用語となる新語の特定・予測(第10回 情報知識学フォーラム「情報の精製と合成」-若手会員が考える新しい情報知識学)
- 4D1 大学における司書教諭資格科目の現状(大学教育 (2), 日本教育情報学会第21回年会)
- 日本語テキストの自動分類のための特徴素抽出手法の比較
- Q&Aサイトと公共図書館レファレンスサービスの正答率比較
- 人の価値観を表すカテゴリを対象にした複数カテゴリへの自動分類の試み
- 公共図書館デジタルレファレンスサービスの正答率調査--対面式及びQ&Aサイトとの比較を通じて
- プーリング手法を用いた学術論文の自動判別実験(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- オープンアクセスを想定した日本語学術論文ファイルの自動判定(デジタルアーカイブの応用,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- 目次と帯を用いた図書の自動分類(情報検索・分類,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- オープンアクセスを想定した日本語学術論文ファイルの自動判定(デジタルアーカイブの応用,テーマ : 「デジタルアーカイブの活用(応用)」および一般)
- Webページの有用性に関する分析 : 特徴語の抽出と被リンク数の比較(Webマイニング)
- WWWにおける有用性の高いページの特定手法について
- フィルタリングソフトの性能と公共図書館への導入状況に関する実態調査
- 日本十進分類法と基本件名標目の相互マッピングの試み
- 国立国会図書館における***グラフィの納本状況
- 言語処理における尤度比の問題点:対訳コーパスからの訳語対抽出を例として
- 専門用語における同義語の競合と拍数・語種の関わり
- 水谷の射影関数とウェアリング分布との関係及び射影関数の若干の特性について
- シソ-ラス作成基準が挙げるディスクリプタ・非ディスクリプタ関係の言語学的整理--言語学における関連概念のレビュ-を通じて
- 司書資格取得者に対する追跡調査 : 仕事・満足度を中心として
- テキスト自動分類の概要(情報のフィルタリング)
- 日本語学術論文PDFファイルの自動判定
- テキストの自動分類に関わる諸要素
- NTCIR-3 WEB : Web 検索のための評価ワークショップ(電子文書処理)
- Web検索のための評価ワークショップに適したシステム評価手法
- On Some Implications of Sample-Size Dependency of Statistical Measures in Lotka-type Data to the Interpretation of Bibliometric Phenomena
- 2000-NL-138-7 対訳コーパスにおける低頻度語の性質 : 訳語対自動抽出に向けた基礎研究
- NLC2000-16 対訳コーパスにおける低頻度語の性質 : 訳語対自動抽出に向けた基礎研究
- 公共図書館デジタルレファレンスサービスの正答率調査 : 対面式及びQ&Aサイトとの比較を通じて
- テキストの自動分類の要素分析的アプローチ
- 図書館の貸出履歴を用いた図書推薦システムの有効性検証
- 九州大学大学院ライブラリーサイエンス専攻の概要と附属図書館との連携 (特集 図書館職員の研修)
- 深層ウェブの実態とその要因 : 機関リポジトリに登録された文献を用いた調査
- テキストの自動分類をめぐる現況 (特集 分類新時代)
- 図書館の貸出履歴を用いた図書推薦システムの有効性検証
- 図書館の貸出履歴と書誌情報を用いた図書推薦システムの有効性