単語と N-gram の各カテゴリにおける出現頻度の比の和を用いたテキスト自動分類手法
スポンサーリンク
概要
- 論文の詳細を見る
In this paper, we consider the automatic text classification as a series of information processing, and propose a new classification technique, namely, “Frequency Ratio Accumulation Method (FRAM)”. This is a simple technique that calculates the sum of ratios of term frequency in each category. However, it has a desirable property that feature terms can be used without their extraction procedure. Then, we use “character N-gram” and “word N-gram” as feature terms by using this property of our classification technique. Next, we evaluate our technique by some experiments. In our experiments, we classify the newspaper articles of Japanese “CD-Mainichi 2002” and English “Reuters-21578” using the Naive Bayes (baseline method) and the proposed method. As the result, we show that the classification accuracy of the proposed method improves greatly compared with the baseline. That is, it is 89.6% for Mainichi, 87.8% for Reuters. Thus, the proposed method has a very high performance. Though the proposed method is a simple technique, it has a new viewpoint, a high potential and is language-independent, so it can be expected the development in the future.
- 2009-01-01
著者
関連論文
- 高次元ベクトル空間モデルによるテキスト分類問題について : 分類性能と距離構造の漸近解析(理論・技術)
- モバイル向け証明書検証システムの開発(ネットワークセキュリティ,シームレスコンピューティングとその応用技術)
- 複数のLDPC符号の交錯による有限状態マルコフ通信路に適した誤り訂正符号について(LDPC符号セッション(符号構成),LDPC符号,及び一般)
- 確率伝搬法を用いたCDMAマルチユーザ検出アルゴリズムに関する一考察
- ユニバーサル情報源・通信路結合符号化に関する一考察
- 外れ値データの発生を含む回帰モデルに対するベイズ予測アルゴリズム
- 複合情報源におけるε達成可能なオーバーフローしきい値に関する考察
- デジタル指紋技術のための結託耐性を持つ符号の連接符号化法
- 無ひずみ情報源符号化におけるオーバフロー確率について(情報理論)
- ユニバーサル通信路符号化法における通信路容量について(ブロードバンドモバイル時代における基礎技術)(情報通信サブソサイエティ合同研究会)
- 決定木モデルにおける予測アルゴリズムについて
- メモリ量を低減した近似ベイズ符号化アルゴリズム(情報理論)
- BW変換を用いたユニバーサル符号化アルゴリズムに関する研究
- グラフを組み合わせたLDPC符号アンサンブルに対する最小スパンの解析(情報通信基礎サブソサイエティ合同研究会)
- ベイズ統計学に基づくOn-line学習モデルと学習可能性
- A-6-6 一般化LDPC符号に対するBF復号法の修正とその性能解析(A-6.情報理論,一般セッション)
- 元画像との差分ベクトルを特徴量とした学習による改変画像検出(ITS画像処理,映像メディア及び一般)
- JPEG2000のビットプレーンを用いたテクスチャ画像の検索(画像符号化,通信・ストリーム技術,及び一般)
- Group Shuffled BP復号法における効果的なグループ分割法
- 信頼度更新を用いたLDPC符号の Bit-Flipping 復号法の改良
- 単語の特徴を考慮したPLSIによる文書クラスタリング
- 単語の共起を考慮に入れたナイーブベイズモデルによる文書分類
- HMM通信路に対するEM復号の復号誤り確率の評価法
- バースト消失訂正に適したLDPC符号の修正方法について(情報通信基礎サブソサイエティ合同研究会)
- ソート・マッチング法に基づく軟判定復号アルゴリズムの修正
- 有限幾何に基づく Fingerprinting のための結託耐性符号
- 譲渡可能で二重使用不可能な電子チケットシステム
- 電子情報通信学会倫理綱領試案 : その解説と策定の経過
- トレリス符号を用いた有歪みデータ圧縮の一考察
- 一般化LDPC符号に対する部分符号の構造を利用した効率的な符号化法(フレッシュマンセッション,フレッシュマンセッション,一般)
- 単語と N-gram の各カテゴリにおける出現頻度の比の和を用いたテキスト自動分類手法
- カテゴリ間の単語頻度の差分を用いたテキストの自動分類
- 階層的クラスタを用いた適合性フィードバック手法による文書検索
- クラスタに基づく適合性フィードバックによる文書検索
- 単語ごとの修正重みに基づく適合性フィードバックによる文書検索
- ランプ型鍵配送方式について
- モバイル環境での証明書検証方式の評価(セキュリティ,データ工学論文)
- 多機能ICカード向けPKI機能
- 自然数表現の一般化について
- 適合文書から抽出した重要語に基づく文書検索
- D-044 クラスタに基づいた適合性フィードバック手法(D分野:データベース)
- D-043 初期検索結果から抽出した単語を用いた擬似フィードック手法(D分野:データベース)
- E-010 ユーザにとって潜在的に重要な単語を用いた対話的文書検索(E.自然言語・文書・ゲーム)
- ベイズ統計学に基づく計算論的学習モデルと学習可能性
- モバイル向け証明書検証方式の評価
- モバイル向け証明書検証サーバの開発
- 質問学習と逐次実験計画の関係に関する一考察
- 直交計画を用いたブール関数の学習に関する一考察
- ブール関数の逐次実験計画を用いた学習に関する一考察
- ベイス決定理論による定式化のもとで直交計画を用いたブール関数の学習に関する一考察
- フーリエ変換を用いたブール関数の学習に関する一考察
- 質問からの学習問題の決定理論による定式化に関する一考察
- 学習期間と制御期間に分割された強化学習問題における最適アルゴリズムの提案(新世代データベース技術 : インターネット・マルチメディア・モーバイルを中心として)
- 矛盾を含む知識の取り扱いについての一考察
- PROLOGを対象とした帰納的学習の効率化
- グラフを組み合わせたLDPC符号アンサンブルに対する最小スパンの解析(情報通信基礎サブソサイエティ合同研究会)
- 相互通信可能な情報源符号化に関する一研究
- ID情報に基づくランプ型分散鍵配送方式について
- 多端子情報理論に基づく分散協調問題について
- 多端子モデルに基づく分散協調問題の定式化について
- 不確実性をもつ仮説に関する帰納推論
- 情報理論に基づく推論の体系化と不確実な知識表現への応用
- クラスタ出力による情報検索システムの解析 : 棄却領域を設けた場合の性質(1985年春季研究発表抄録)
- 質問検索用ファイルの効率評価に関する考案(1984年春季研究発表抄録)
- 曖昧な概念の評価法における情報理論的アプローチ
- 定常有限記憶情報源に対するベイズ符号化アルゴリズム
- 巡回符号の復号法に関する一考察 : 2元巡回符号のバースト誤りに対する重畳による復号法
- 外れ値データの発生を含む回帰モデルに対するベイズ予測アルゴリズム
- 外れ値データの発生を含む回帰モデルに対するベイズ予測アルゴリズム
- 元画像との差分ベクトルを特徴量とした学習による改変画像検出(ITS画像処理,映像メディア及び一般)
- JPEG2000のビットプレーンを用いたテクスチャ画像の検索(画像符号化,通信・ストリーム技術,及び一般)
- JPEG2000のビットプレーンを用いたテクスチャ画像の検索(画像符号化,通信・ストリーム技術,及び一般)
- バースト消失訂正に適したLDPC符号の修正方法について(情報通信基礎サブソサイエティ合同研究会)
- バースト消失訂正に適したLDPC符号の修正方法について(情報通信基礎サブソサイエティ合同研究会)
- モバイル向け属性証明書検証システムの開発
- M-090 2者間暗号通信における鍵交換の計算コスト・通信コスト削減(M.ネットワーク・モバイルコンピューティング)
- 決定木の構成法に関する一考察
- 二元線形ブロック符号を用いた周期的時変畳込み符号の構成法(符号理論)
- N-021 自然言語表現に基づく学生アンケート分析システム(N.教育・人文科学)
- 係り受け木を用いた日本語文書の重要部分抽出(要約)
- 係り受け木を用いた日本語文書の重要部分抽出(言語理解とコミュニケーション)
- 限界距離復号法を用いた効率的な最ゆう復号法
- 2元線形符号を用いた多重アクセス通信路に対する線形計画復号について(LDPC符号,一般)
- 高次元ベクトル空間モデルによるテキスト分類問題について : 分類性能と距離構造の漸近解析
- バースト消失訂正とLDPC符号に関する一考察
- 区間で一定なパラメータを持つ非定常情報源におけるベイズ符号の冗長度について
- 区間で定常なパラメータを持つ非定常情報源におけるベイズ符号の冗長度について(一般セッション)(フレッシュマン,一般)
- 区間で一定なパラメータを持つ情報源におけるベイズ符号化法について
- D-028 文書に特徴的な単語を考慮した検索結果のクラスタリング(D分野:データベース)
- バースト消失における非正則LDPC符号の構成法(情報通信基礎サブソサイエティ合同研究会)
- 信頼性を考慮した推論について
- D-8-6 ベイズ推定に基づく不確実な知識を用いた推論に関する一考察
- 不確実な知識を用いた推論のモデル化と推論法について
- 4J-2 マルチエージェントにおける情報交換ルールの自動獲得に関する一考察
- 2J-4 EMアルゴリズムによるパラメータ推定に関する一考察
- 推論の信頼性を考慮した不確実な知識の表現法と推論法について
- カテゴリ間の単語頻度の差分を用いたテキストの自動分類手法に関する有効性の検証
- テキスト自動分類におけるキーワード選択に関する一考察
- 確率的推論のモデル化と推論結果の信頼性を保証する推論方式について
- 任意の外部記憶容量で動作するマージソート(情報・システム基礎,学生論文)