X^2法を用いた重要漢字の自動抽出と文献の自動分類
スポンサーリンク
概要
- 論文の詳細を見る
テキストの属する専門分野を決めるためには、それぞれの専門分野の用語がどのようにあらわれるかを調べることによって行なうことが考えられるが、日本テキストの場合には単語を正しく切り出し専門用語を取り出すことはそれほど容易ではない。そこで我々は、各分野にかたよってあらわれる漢字に注目し、その組合せによってテキストが属する分野を決定する方法を提案する。本稿ではX^2法の考え方にもとづいて分野の識別に重要な漢字を自動的に抽出し、その統計的情報を用いた単純なパターン分類の手法で日本語テキストを分類する方法について述べる。本手法によって一般文書を分類する実験では、天声人語の41.6%、社説の77.9%、サイエンスの記事の92.7%の分類に成功した。
- 社団法人電子情報通信学会の論文
- 1994-10-21
著者
-
渡辺 靖彦
龍谷大学理工学部情報メディア学科
-
村田 真樹
情報通信研究機構
-
渡辺 靖彦
龍谷大学理工学部電子情報学科
-
渡辺 靖彦
京都大学工学部電気工学第二教室
-
村田 真樹
京都大学工学部電子通信工学教室
-
長尾 眞
京都大学大学院情報学研究科知能情報学専攻
-
竹内 雅人
京都大学工学部電気工学第二教室
関連論文
- 6.言語・画像のデータ依存情報処理(情報処理技術の未来地図,50周年記念特集号)
- コミュニケーションサイトに投稿されたメッセージに対する著者の推定(情報抽出(テーマセッション3))
- 国立国会図書館 館長対談(第13回)前フランス国立図書館長 ジャン-ノエル・ジャンヌネー氏 文化の多様性と知の伝承
- 国立国会図書館 館長対談(第7回)デジタル時代のスウェーデン国立図書館の挑戦 (デジタル時代のスウェーデン国立図書館の挑戦--スウェーデン国立図書館長 グンナー・サーリン氏)
- シーン内のテキストの認識および翻訳
- 機械翻訳カメラ
- 本の森を歩く(特別篇)館長 長尾真が読書週間に選ぶ9冊
- 表記選択支援のための優勢表記辞書の作成(語彙)
- 問い返しを用いた英作文学習支援(コミュニケーション支援(テーマセッション3))
- メールの文章における段落間の接続の強さの推定(コミュニケーション支援(テーマセッション3))
- 指の触覚特性に基づく微細形状の詳細度制御
- 三次元形状データの構造解析に基づく部分形状表現(コンピュータグラフィックス(CG)基礎)
- あいまいな質問に問い返すためのメーリングリストを利用した知識獲得(言語理解とオントロジーシンポジウム)
- あいまいな質問に問い返すためのメーリングリストを利用した知識獲得
- 同義語を用いた質問文の拡張による係り受け関係の柔軟な照合(文の解析)
- メーリングリストを利用した質問応答システムのための知識の内容確認(意味・応用)
- メーリングリストを利用した質問応答システムのための知識獲得
- メーリングリストを利用した質問応答システムのための知識獲得(質問応答)
- カメラつき携帯電話を利用したシーン中の文字の認識と翻訳 : TCMP:Translation Camera on Mobile Phone(文字とドキュメントの認識・理解)
- カメラつき携帯電話を利用したシーン中の文字の認識と翻訳 : TCMP: Translation Camera on Mobile Phone(文字とドキュメントの認識・理解))
- シーン中のテキストの解析と利用 (ことば工学研究会(第2回)テーマ:一般講演)
- 遠隔対話型行動記録による教示コンテンツの獲得(一般,膨大なデータから学ぶもの)
- 絵画解説文の対象情報・感性的情報の抽出
- 画像の内容を説明するテキストを利用した画像解析
- キャプションと記事テキストの文字列照合による報道番組と新聞記事との対応づけの自動化
- パターン情報と自然言語情報の統合による植物図鑑の図の理解
- キャプションと記事テキストの最長一致文字列照合による報道番組と新聞記事との対応づけの自動化
- 図鑑の解説文から内容抽出を行うための専門知識の構築
- 植物図鑑のテキストと図による植物用語間の階層関係の獲得
- 概念の属性を表す名詞述語文の述語の自動分類
- 図鑑の解説文から内容抽出を行なうための専門知識の構築
- IPAL辞書と分類語語彙を用いた単語意味辞書の作成
- TVニュースと新聞記事の対応づけ
- 表層的手がかりによる六法全書法律文での要件部・効果部の抽出手法
- 形態素の共起頻度と出現位置による新聞関連記事の検索手法
- 巻頭対談 国立国会図書館長・長尾真氏 VS.東京理科大学理事長・塚本桓世氏 これからの図書館のあり方と利用について
- 創立40周年記念祝典のご報告
- 日本の大学のあるべき姿 (特集1 大学改革はどこへ向かうのか?) -- (大学を問う)
- 名詞句「AのB」「AB」の用例を利用した換喩解析
- 科学的説明の確実性について
- 確率的モデルによる仮名漢字変換
- 2. 先端技術を生み出す独創性 : 2-1 独創性とは(900号記念特集)
- インタラクティブ・エッセイ : 再コメント
- 電子図書館の正しい概念を持とう (インタラクティブ・エッセイ)
- 構文情報を利用した電子ニュース記事のクラスタリングシステムの作成と評価
- 21世紀情報社会へ向って
- 構文情報を利用した電子ニュース記事のクラスタリングシステムの作成と評価
- 表層表現と用例を用いた照応省略解析手法
- 日本語文章における表層表現と用例を用いた動詞の省略の補完
- 意味ネットワークからの文章生成
- 国立国会図書館 館長対談(第12回)児童文学者 松岡享子氏 読書は本とのコミュニケーション
- 国立国会図書館 館長対談(第11回)立命館大学教授、京都大学特任教授 佐和隆光氏 持続可能で豊かな社会を
- 国立国会図書館 館長対談(第10回)慶應義塾学事顧問、慶應義塾大学教授 安西祐一郎氏 知識は力である
- 国立国会図書館 館長対談(第9回)国際図書館連盟会長 クラウディア・ルクス氏 主張する図書館へ
- 国立国会図書館 館長対談(第8回)大阪大学名誉教授 伊井春樹 古典と現代
- 国立国会図書館 館長対談(第6回)文字・活字文化推進機構会長 福原義春氏 読書の力、本の力
- 国立国会図書館 館長対談(第5回)東京大学教授 上野千鶴子氏 本の未来、図書館の未来
- 国立国会図書館 館長対談(第4回)カナダ国立図書館公文書館長 イアン・ウィルソン氏 デジタル情報社会が求める国立図書館の役割
- 意味的制約を用いた日本語名詞における間接照応解析
- 用例や表層表現を用いた日本語文章中の指示詞・代名詞・ゼロ代名詞の指示対象の推定
- 表層表現と用例を用いた動詞の省略の補完
- 表層表現と用例を用いた動詞の省略の補完
- 表層表現を手がかりとした日本語名詞句の指示性と数の推定
- 日本語名詞における間接照応
- 名詞の指示性を利用した日本語文章における名詞の指示対象の推定
- 用例や表層表現を用いた日本語文章中の指示詞・代名詞・ゼロ代名詞の指示対象の推定
- 表層表現を利用した日本語文章における後方照応表現の自動抽出
- 用例や表層表現を用いた日本語文章中の指示詞・代名詞・ゼロ代名詞の指示対象の推定
- 表層表現を利用した日本語文章における後方照応表現の自動抽出
- 日本語表層表現を手がかりとした名詞の指示性と数の推定
- 日本語表層表現を手がかりとした名詞の指示性と数の推定
- 投稿履歴と文体の類似判定を利用したQ&Aサイトにおけるなりすましユーザの検出
- 観光地に対する長所情報の収集と分類の試み(自然言語の論理と感情)
- Q&Aサイトでのコミュニケーションを操作しようとするユーザの異なるカテゴリに投稿されたメッセージを用いた推定(第1回集合知シンポジウム〜言語処理が紡ぎ出す未来〜)
- 情報抽出表とソートグラフを利用したテキストマイニングシステム Simpleminer
- 日本語発話文における敬語の誤用を指摘するシステムの開発
- キャプションと記事テキストの最長一致文字列照合による報道番組と新聞記事との対応づけの自動化
- 画像の内容を説明するテキストを利用した画像解析
- χ^2法を用いた重要漢字の自動抽出と文書の自動分類
- 植物図鑑のテキストと図による植物用語間の階層関係の獲得
- パターン情報と自然言語情報の統合による植物図鑑の図の理解
- X^2法を用いた重要漢字の自動抽出と文献の自動分類
- Q&Aサイトに投稿する質問に書くべき情報の特殊さの推定(第1回集合知シンポジウム〜言語処理が紡ぎ出す未来〜)
- 問い返しを用いた英作文学習支援(コミュニケーション支援(テーマセッション3))
- メールの文章における段落間の接続の強さの推定(コミュニケーション支援(テーマセッション3))
- メーリングリストを利用した質問応答システムのための知識の内容確認(意味・応用)
- CICLing 2005
- 論文アブストラクトから原子分子の状態の情報を検出,抽出する方法の研究
- 遠隔対話型行動記録による教示コンテンツの獲得(一般,膨大なデータから学ぶもの)
- TVニュースと新聞記事の対応づけ
- TVニュースと新聞記事の対応づけ
- AS-6-1 発話文の敬語の誤用を指摘するシステム : プロトタイプの開発(AS-6. 円滑なコミュニケーションの解明へのアプローチ, 基礎・境界)
- 複数の辞書の定義文の照合に基づく同義表現の自動獲得
- TVニュースと新聞記事を対象にしたマルチメディアデータベースシステム
- TVニュースと新聞記事を対象にしたマルチメディアデータベースシステム
- TVニュースで用いられるテロップの意味解析
- 回答の投稿から質問解決までの時間に着目したQ&Aサイトにおける評価を操作しようとするユーザの検出(Q&A,第2回集合知シンポジウム)
- Q&Aサイトにおいて1つの質問に対して複数のアカウントを用いて複数の回答を投稿するユーザの検出(Q&A,第2回集合知シンポジウム)
- Q&Aサイトで繰り返し一緒に回答を投稿するユーザ間での投稿順序の偏りの調査(第3回集合知シンポジウム)
- 日本語と英語のツイー卜の末尾にある不読符号列の比較