辞書の語義文を用いた文書の自動分類
スポンサーリンク
概要
- 論文の詳細を見る
本稿では, 辞書の語義文を用いて文書のクラスタリングを行う手法を提案する. まず, 名詞の多義に注目し, 辞書の語義文を用いてこれを自動的に解消する. 次に, 解消された文書に対し, 意味的に関係がある名詞(たとえば, 複合名詞を構成する各要素)どうしを同一クラスタにまとめ(名詞間のリンク付けと呼ぶ), この結果を用いて文書のクラスタリングを行った. 実験では, まず本手法で用いられている多義の解消と名詞間のリンク付けが文書のクラスタリングに対して有効であるかどうかを検証するため, 1.単語の重み付けに頻度を用いて文書のクラスタリングを行う手法, 2.多義の解消のみを行う手法, 3.名詞間のリンク付けのみを行う手法, 4.多義の解消と名詞間のリンク付けを行う手法(本手法)の実験を行った. その結果, それぞれ, 47.5%, 52.5%, 57.5%, 72.5%の正解率が得られた. 次に, 湯浅らの提案した名詞間の共起関係を利用した文書の分類方法と比較した結果, 湯浅らの手法が平均65.0%に対し, 本手法では, 72.5%の正解率を得た.
- 一般社団法人情報処理学会の論文
- 1996-10-15
著者
-
福本 文代
山梨大学大学院医学工学総合研究部
-
鈴木 良弥
山梨大学大学院医学工学総合研究部
-
福本 文代
山梨大学工学部
-
鈴木 良弥
山梨大学工学部コンピュータ・メディア工学科
-
福本 淳一
沖電気工業(株) 総合システム研究所
-
福本 淳一
沖電気工業株式会社研究開発本部関西総合研究所
-
福本 淳一
沖電気工業(株)研究開発本部関西総合研究所
関連論文
- 単語の類似尺度に基づくシソーラス辞書への用例付与(学生セッション II)
- 音声対話システムにおけるタッチ情報を利用した現場指示詞の処理
- WordNetの同義語クラスとその上位関係を利用した文書の自動分類
- Web上から取得した共起頻度と音象徴によるオノマトペの自動分類(自然言語処理)
- マルチモーダルユーザインターフェースを備えた高次コミュニケーション空間の構築に関する研究開発通信放送機構委託研究(1997-2001)
- 単語の類似尺度に基づくシソーラス辞書への用例付与(学生セッション II)
- コーパスに基づく動詞の多義解消
- コーパスに基づく動詞の多義解消
- 新聞社説記事における照応現象
- 超高速ATM LANの構築法と次世代ユーザーインタフェースに関する研究
- 階層構造におけるカテゴリの統合と類似文書抽出への適用(学生セッション I)
- 階層構造におけるカテゴリの統合と類似文書抽出への適用(学生セッション I)
- マルチラベルの分野名タグに対する事例間類似度に基づいた誤り修正(自然言語処理)
- 分野の階層構造を利用したコーパスの誤り修正と文書分類への適用(自然言語処理)
- TD-2-1 知的情報検索のための大規模言語データの利用(TD-2. WEB知的処理の基礎)
- 話題の推移に基づく続報記事の自動抽出(自然言語)
- 語義の曖昧性解消のための最適な属性選択
- 語義の曖昧性解消のための最適な属性選択
- 語の重み付け学習を用いた文書の自動分類
- 類推に基づく語の重み付け学習を用いた動詞の多義解消
- 音声とポインティングジェスチャを利用した指示物同定
- 文脈依存の度合を考慮した重要パラグラフの抽出
- ニュース文の話題セグメンテーション
- 3語の同時出現頻度を利用した前置詞句の係り先の曖昧性解消
- 辞書の語義文を用いた文書の自動分類
- ニュース文を対象とした話題の認識
- 日本語の述部階層構造に基づく形態論的な文法規則の記述法
- ニュース文を対象とした話題毎のセグメンテーション
- 3語の同時出現頻度を利用した前置詞句の係り先の曖昧性解消
- 係り受けの強度に基づく依存文法 : 制限依存文法
- 局所化した単一化文法とその表現
- 制限依存文法とその表現
- コーパスに基づく比喩性検出手法
- 音声対話装置に対するユーザの否定発話の抽出と処理方法(音声言語)
- ビデオ装置を例とした家電品の音声対話機能について(マルチモーダル)(「インタラクション:理論,技術,応用,評価」)
- F-12 サンプリング周波数に依存しない話者方向識別(音声・音声言語情報処理,F.音声・音楽)
- E-3 要約文生成のための集合名詞の要素の抽出(要約・情報検索,E.自然言語・文書)
- 格構造を利用した対話中の否定対象の推定
- 対話文中の否定表現の分析とその理解方法
- テレビ制御用音声対話システム
- 対話文に現われる否定表現の分類とその理解
- 不特定話者連続音声認識のための規則による音素識別
- マルチエージェントによる頑健な自然言語処理の協調方式
- マルチエージェントによる頑健な自然言語処理方式の提案
- 日本語、英語テキストからの固有名・数量情報抽出システム
- 固有名詞抽出における日本語と英語の比較
- 固有名詞抽出における日本語と英語の比較
- MUC-7, Tipster 参加報告
- MUC-7, Tipster 参加報告
- 統計的手法を用いた比喩認識
- "ような"を指標とした比喩表現の分類と評価
- MUC-7 Coreferenceタスク用システムの評価
- 新聞記事からの要素属性情報の抽出
- 新聞記事からの要素属性情報の抽出
- 韻律情報を利用した連続音声中の隣接句間の修飾関係有無の判定
- スケッチ画制御用音声対話システムにおける文脈情報の利用
- 音声認識のための連想辞書作成の一手法
- 音声対話システムにおける代名詞処理の試み
- 利用環境を考慮した音声対話システムの構築
- 意味属性を利用した音声認識のための連想情報について
- 話し言葉中の助詞の推定
- スケッチ画制御用音声対話システムの作成
- 対話音声中の助詞の補完とその評価
- 複数句を照合単位とした連続音声認識
- 韻律情報を利用した対話音声中の隣接句間の修飾関係の抽出
- 日本語連続音声認識のための韻律情報を利用した句境界の抽出
- 連続音声中の音素識別のための線形判別関数の話者適応
- 少数の正例とラベルなし事例による文書の自動分類(自然言語処理)
- Web掲示板における皮肉の分類および自動検出