Monotone Increasing Binary Similarity and Its Application to Automatic Document-Acquisition of a Category
スポンサーリンク
概要
- 論文の詳細を見る
A technique that acquires documents in the same category with a given short text is introduced. Regarding the given text as a training document, the system marks up the most similar document, or sufficiently similar documents, from among the document domain (or entire Web). The system then adds the marked documents to the training set to learn the set, and this process is repeated until no more documents are marked. Setting a monotone increasing property to the similarity as it learns enables the system to 1) detect the correct timing so that no more documents remain to be marked and to 2) decide the threshold value that the classifier uses. In addition, under the condition that the normalization process is limited to what term weights are divided by a p-norm of the weights, the linear classifier in which training documents are indexed in a binary manner is the only instance that satisfies the monotone increasing property. The feasibility of the proposed technique was confirmed through an examination of binary similarity and using English and German documents randomly selected from the Web.
- (社)電子情報通信学会の論文
- 2008-11-01
著者
-
三上 喜貴
長岡技術科学大学
-
三上 喜貴
長岡技術科学大学経営情報系
-
三上 喜貴
長岡技科大
-
三上 喜貴
(社)情報処理学会
-
Mikami Yoshiki
Nagaoka University of Technology
-
三上 喜貴
長岡技術大
-
Suzuki Izumi
Nagaoka University Of Technology
-
Mikami Yoshiki
長岡技科大
-
Ohsato Ario
Nagaoka Univ. Technol. Jpn
-
Ohsato Ario
Nagaoka University Of Technology
関連論文
- O-005 セレンディピティを誘発する地域資源マップ(情報システム,一般論文)
- D-047 ccTLDを単位としたWebコミュニティ構造の分析(D分野:データベース)
- ベトナム語母語話者にとって漢越語知識は日本語学習にどの程度有利に働くか-日越漢字語の一致度に基づく分析-
- 1P-7 XMLを用いた歴史文書のタグ付け支援ツール(XMLと応用,学生セッション,データベースとメディア)
- 留学生教育の視点から見た日本語工学語彙特性の分析
- 5U-1 文書の自動分類用キーワードの抽出 : Folkonomy支援のための分類(情報抽出,学生セッション,人工知能と認知科学)
- A-13-3 Folksonomyのための自動分類生成手法(A-13.思考と言語,一般講演)
- 複数クラスにおける遠隔授業の特性分析
- 417 UDに立脚した工学基礎教育の再構築(OS14-3 教育プログラム,オーガナイズドセッション:14 技術と社会(高等教育改善))
- 6G-1 教育支援ツールとしての環境モニタリングシステムの実装(教育支援(3),一般セッション,コンピュータと人間社会)
- 子供の製品事故の現状と事故情報システムの課題
- J-033 The Design and Development of Romanized Myanmar Input System for Mobile Phones
- 外国人学習者を対象とした文字ストローク学習支援ツールの開発
- 13-222 今後の国際連携教育について : ヴィエトナム・ハノイ工科大学とのツイニング・プログラム(オーガナイズドセッション「工学教育の個性化・独自化」)
- 5J-1 ジニ係数を用いたグローバルデジタルデバイドの数量的評価(情報爆発時代における知識社会形成ガバナンス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- L-032 マルチ・クエリー検索に基づくページ検索におけるランク手法(ネットワーク・セキュリティ,一般論文)
- 言語天文台を設立するための言語判定フレームワークの開発
- N-014 Design of Sogd Character Information Processing System
- M-028 バス車内のリアルタイム異常検知支援システム設置に向けたエルゴノミクス的検討(M分野:ユビキタス・モバイルコンピューティング,一般論文)
- 5J-2 国別トップレベルドメイン名(ccTLD)のaffordabilityに関する分析 : 価格と利用実態の観点から(情報爆発時代における知識社会形成ガバナンス,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- F-005 サーバ所在区分別で見たWebグラフ構造の分析 : outdegree成長図の利用(F分野:人工知能・ゲーム,一般論文)
- O-014 整備不良自動車流通による事故発生モデル(情報システム,一般論文)
- O-001 インターネット上の言語分布に関する調査(情報システム,一般論文)
- K-064 製品事故事例の統計的解析による教材設計 : 事故経験から消費者教育へ(教育工学・福祉工学・マルチメディア応用,一般論文)
- K-063 技術者伝データベースの設計のための学習関心の調査(教育工学・福祉工学・マルチメディア応用,一般論文)
- K-062 製品事故データを用いた消費者学習空間の設計(教育工学・福祉工学・マルチメディア応用,一般論文)
- 3P-4 カントリー・ドメイン・ガバナンス分析用統合データ管理システム(情報管理とシステム,学生セッション,データベースとメディア)
- 5D-1 アジア及びアフリカの地域別ドメインにおける言語の分布状況について(自然言語処理(2),一般セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- N-022 情報格差観測のための指標開発とデーターベース設計(教育・人文科学,一般論文)
- N-015 特許情報教育のための教育支援ツール開発(教育・人文科学,一般論文)
- N-005 歴史事象記述の枠組みを用いた歴史教材入力支援ツールの実装(教育・人文科学,一般論文)
- 5H-1 Romanized Myanmar Input Method for Mobile Devices
- N-035 XMLによる歴史の知識基盤表現(N分野:教育・人文科学)
- XMLを用いた技術史の知識基盤表現
- 5ZM-8 特許引用関係を用いた企業の特許力評価(企業と情報システム,学生セッション,コンピュータと人間社会)
- 技術大国インドの研究(中編)
- 言語間デジタル・ディバイド
- 技術大国インドの研究 : 前編
- 東南アジアに見るデジタル・ディバイド(アジアを知るPart3 : 東南アジア情報)
- 2C23 科学技術関連条約等データベースの構築
- 結合音節文字の符号化方式の分類
- アジア留学生の長期動態 : その留学国選択
- 2C9 APEC地域における研究者交流の実態
- 2A5 経済危機下のアジア各国における科学技術政策の動向
- J-032 Design of Input Method for Myanmar Language on Mobile Phone
- Project Schedule Management Using a Fuzzy Activity Network Considering Resource and Environmental Factors
- ISDN回線とインターネットを利用した遠隔授業実験
- ISDN回線とインターネットを利用した遠隔授業実験
- C-11 遠隔教育システムの構築に関する一考察 : 多地点遠隔授業実験結果をふまえて
- A-8-2 言語特定クロウラーのための代替的言語判定手法の評価(A-8.技術と社会・倫理,一般講演)
- 研究評価分科会の活動を通して見た我国の研究評価の変遷と現状(分科会・支部の活動)
- 製品事故データに基づくリスク・マトリックスの作成--玩具への適用
- 世界の「言語天文台」
- Languages of Myanmar in Cyberspace
- Monotone Increasing Binary Similarity and Its Application to Automatic Document-Acquisition of a Category
- Japanese Industrial Development and the Role of the State : A Short History
- スパムメール発信源分析によるサーバ・ドメイン管理実態の推定
- 製品事故データに基づくリスク・マトリックスの作成 : 玩具への適用
- D-023 2部グラフを用いた概念の階層構造抽出(データベース,一般論文)
- LO-004 デジタルデバイドの評価指標についての一提案(情報システム)
- LD-001 サーバ接続環境調査のための低負荷クローリング手法の検証(データベース)
- 技術者倫理と学協会
- 安全研究だより 安心安全社会を構想した明治の先覚者達
- 世界の文字と文字符号(後編)
- 世界の文字と文字符号(前編)
- 規制緩和とイノベーション-情報・通信技術の活用を中心に-
- Endangered Latin American languages and their place in the cyber space
- 記号伝達課題による対話コーパスの設計
- 遠隔授業のためのVOD (Video On Demand) システムの評価
- 記号伝達課題における遠隔対話の特性分析
- 遠隔授業のための VOD (Video On Demand) システムの評価
- 記号伝達課題における遠隔対話の特性分析
- 傷害情報システムの構築に関する研究
- 事例紹介 日本人のアジア留学の意義と大学の国際化--長岡技術科学大学の事例 (特集 アジア諸国への留学)
- E-048 トルファンマニ文字コードとグリフのデザイン(言語分析・多言語,E分野:自然言語・音声・音楽)
- E-046 伝統的モンゴル語テキストの音節分割アルゴリズム規則の設計(言語分析・多言語,E分野:自然言語・音声・音楽)
- E-045 中期ウイグルテキストの音節分割アルゴリズム規則の設計(言語分析・多言語,E分野:自然言語・音声・音楽)
- L-007 スパムメール発信源分析によるTLDのガバナンス推定(セキュリティ運用管理,L分野:ネットワーク・セキュリティ)
- Languages of Myanmar in Cyberspace