新たな弱教師付き型分類手法Bautext
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,web上の大量のレビュー情報を要約する際の基盤技術として,単語を意味的カテゴリに分類するための手法,Bautextを提案し評価する.Bautextは弱教師付き手法であり,係り受け関係と相互情報量に基づいた名詞・名詞句のカテゴリ分類を行う.Bautextの特徴は以下の4つである.1)既存のブートストラッピング法等は,性能が多数のパラメータに依存するため,ユーザは良い分類精度を得るためのパラメータ設定を試行錯誤して見つける必要があった(小町ら,2010).一方,Bautextにおいてはユーザは多数のパラメータ設定をする必要がなく,少数の種語を与え,各カテゴリと単語の関連度(配属スコア)を計算することにより,漸次種語を増加させ,分類を自動化させている.2)既存のブートストラッピング法では,反復ごとに多数のカテゴリが1つの単語を獲得しようとするときに再度評価のステップがあった.一方,Bautextにおいては,各カテゴリが独立な特徴語集合を持ち,それをもとに各カテゴリへの単語の配属スコアを計算し,最大スコアのカテゴリが単語を獲得することでこの再度評価のステップをなくした.そのため,ブートストラッピング法と比べて高速な分類アルゴリズムとなっている.3)既存のブートストラッピング法では意味ドリフトという課題がある.意味ドリフトの原因は,反復処理の過程において,新しい単語を獲得するために使われる抽出パターン数が定数個であるため,以前の各反復で抽出できた適切な抽出パターンの影響が消されることにあると考えられる.これに対して,Bautextでは,各カテゴリが,独立な特徴語集合に今まで抽出できた適切な特徴語(抽出パータンと同じ役割)を保存することと反復ごとに分類対象の単語をランダムに選択させることにより,意味ドリフトを制御する効果が期待できる.4)目的の分類カテゴリに加えて「その他」カテゴリを導入することで,本来評価対象となりえない単語が「その他」カテゴリに移動し,目的の分類カテゴリの適合率が向上するという特徴がある.評価実験では,まず「その他」カテゴリの導入効果を確認した.また,代表的なブートストラッピング法であるBasiliskおよびEspressoの2手法とBautextとを比較し,両者に比べ,Bautextが分類精度,速度,使いやすさの3点において有効な手法であることを確認した.
- 2011-01-15
著者
-
尾内 理紀夫
電気通信大学大学院電気通信学研究科
-
森 正弥
楽天技術研究所
-
森 正弥
楽天株式会社楽天技術研究所
-
グェンファムタンタオ
電気通信大学大学院電気通信学研究科|楽天技術研究所
-
岡部 誠
科学技術振興機構さきがけ|電気通信大学情報理工学部
-
林 貴宏
新潟大学工学部情報工学科
-
西岡 悠平
楽天技術研究所
-
竹中 孝真
楽天技術研究所
-
尾内 理紀夫
電気通信大学電気通信学部|電気通信大学大学院情報理工学研究科
-
林 貴宏
電気通信大学
-
尾内 理紀夫
電気通信大学
関連論文
- 俳句に適合する合成画像を生成するシステムの検討(感性とメディア及び一般)
- キーワード型検索エンジンにおける修正キーワード提示アルゴリズム
- 動的環境に対処するための遺伝的アルゴリズムの制御方法
- 故障診断のための事例ベース推論を導入した高速仮説推論システム
- 述語論理知識を扱う全解探索仮説推論の高速化
- 蟻メタファーを用いたブロガーの興味推移の視覚化
- 第1回データ工学と情報マネジメントに関するフォーラム(DEIM2009) BoFセッション報告「Web企業における研究・開発の『これまで』と『これから』」(BoFセッション)
- インターネットにおけるデバイス環境の多様化,サーバ環境の大規模化,プラットホームのエコシステム化への対応 (社会基盤としてのインターネットアーキテクチャ論文特集)
- 吹き出し形式の字幕表示システム : なかじまくん(ネット,ゲーム等,仮想空間における映像メディアの処理,表現,応用,及び一般)
- インターネットにおけるデバイス環境の多様化,サーバ環境の大規模化,プラットホームのエコシステム化への対応(社会基盤としてのインターネットアーキテクチャ論文)
- 楽天技術研究所の取り組み(Web情報処理,Webとデータベースに関する技術報告)
- 世界コミュニケーション年から25年 : グローバルメディアの今後25年を展望する
- 新たな弱教師付き型分類手法Bautext
- D-12-96 手がかり領域追跡誤りの自動修正による動画像物体追跡の精度向上(D-12.パターン認識・メディア理解,一般セッション)
- D-12-69 任意形状のテンプレートに対する高速画像探索の検討(D-12.パターン認識・メディア理解,一般セッション)
- 放送型野球中継映像における打席シーンの分割に必要なスコアテロップ内の情報領域の抽出と意味推定
- 改良領域拡張法による高速画像切り抜き手法の提案と評価
- 学習不要な名詞句のカテゴリ分類手法
- 学習不要な名詞句のカテゴリ分類手法
- 学習不要な名詞句のカテゴリ分類手法
- 学習不要な名詞句のカテゴリ分類手法
- 線追跡を用いた動画内物体追跡の検討(仮想都市,複合現実感,及び一般)
- 4ZC-3 動画プリクラ・レターの試作(コンテンツ&Web,学生セッション,インターフェース)
- ベクタ画像を対象とした輪郭線抽出に基づく図地分離手法の検討(CG一般(1), テーマ: 可視化のためのCGおよびCG一般)
- センサノードのメタ情報を利用したワールドモデル構築支援(プラットフォーム・アーキテクチャ)
- センサノードのメタ情報を利用したワールドモデル構築支援(プラットフォーム・アーキテクチャ)
- センサノードのメタ情報を利用したワールドモデル構築支援
- 改善集団と改悪集団による進化的停滞を回避する遺伝的アルゴリズムと時間枠つき配送計画問題への適用
- 改善集団と改悪集団による進化的停滞を回避する遺伝的アルゴリズムと時間枠つき配送計画問題への適用
- 映像短縮再生システムの教育映像への適用評価(コンテンツ処理)
- 条件照合アルゴリズムの動的切り替えによるプロダクションシステムの高速化
- 高次αメモリを導入した直接条件照合アルゴリズム
- モーションキャプチャと加速度センサを用いた振りの練習支援
- 画像情報を含むblog記事検索システムの開発(コンテンツ技術,Web情報システム)
- 蟻メタファーを用いたブロガーの興味推移の視覚化
- 特徴点の照合に基づくベクタ画像検索システムの試作(画像検索,議題 : ビジョンとグラフィクスの融合およびCG一般)
- Why型質問の回答文をWebページから抽出するシステムRE:Whyの試作
- 吹き出し形式の字幕表示システム : なかじまくん(ネット,ゲーム等,仮想空間における映像メディアの処理,表現,応用,及び一般)
- Why型質問の回答文をWEBから自動抽出するシステムの開発と評価(情報検索,インタラクション技術の原理と応用)
- ベクタ画像を対象としたプリミティブ選択モデルに基づくオブジェクト領域抽出(画像処理,インタラクション技術の原理と応用)
- ソナグラムの画像特徴に着目した音声・音楽・ノイズ区間識別手法の提案(PRMU一般(1),顔・ジェスチャの認識・理解)
- D-12-37 感性情報に基づく画像と音声の対応付けへ向けた検討(D-12.パターン認識・メディア理解,一般セッション)
- 遺伝的アルゴリズムによる動的環境下での最適化(≤特集≥進化的計算)
- 述語論理知識を扱う全解探索仮説推論の高速化
- 遺伝的アルゴリズムによるガスセンサ応答からの室内ガス発生源稼働情報の抽出
- 遺伝的アルゴリズムを用いたガスセンサ観測信号からの人間の活動検知
- D-12-165 柔道ビデオにおけるイベント検出システムの検討 : Out-of-Playの検出(D-12. パターン認識・メディア理解B)
- 学内情報ネットワークの運用ポリシー策定と今後の課題
- スケッチ線と意味アイコンを用いた風景画像検索(複合現実感とパターン認識・メディア理解, 一般)
- MineBlog : 興味発見を支援するblog記事推薦システム(情報検索)
- 楽曲を演奏しているように見える動画の自動生成(メディア処理とバイオメトリクス及び一般)
- D-11-58 画像切抜きとアクティブ探索による動画内物体抽出の検討(D-11.画像工学,一般セッション)
- Twitterを利用したソーシャルニュース記事推薦システム
- 肌領域の動的拡張処理を用いた有害画像検出(PRMU一般(1),顔・ジェスチャの認識・理解)
- ソナグラムの画像特徴に着目した音声・音楽・ノイズ区間識別手法の提案(PRMU一般(1),顔・ジェスチャの認識・理解)
- 肌領域の動的拡張処理を用いた有害画像検出(PRMU一般(1),顔・ジェスチャの認識・理解)
- Webページクラスタリングに基づく個人ページ収集法(Webインテリジェンスとインタラクション)
- D-4-8 TV録画予約情報を利用したWebページ推薦システムにおける嗜好学習の検討(D-4. データ工学)
- 動画への効果音付加支援システムの作成(学生研究発表会)
- 映画の文法に基づく対話シーン検出の検討 (マルチメディア・仮想環境基礎)
- BI-7-4 ビッグデータがもたらす次世代E-Commerceと情報ネットワーク(BI-7.情報ネットワーク科学が目指すもの,依頼シンポジウム,ソサイエティ企画)
- 図形の線対称性を用いた輪郭線補完(インタフェース(2),五感メディアの品質,コミュニケーションデザイン,画像符号化,食メディア,一般)
- 図形の線対称性を用いた輪郭線補完(インタフェース(2),五感メディアの品質,コミュニケーションデザイン,画像符号化,食メディア,一般)
- 映画の文法に基づく対話シーン検出の検討(映像(2),五感メディアの品質,コミュニケーションデザイン,画像符号化,食メディア,一般)
- 映画の文法に基づく対話シーン検出の検討(映像(2),五感メディアの品質,コミュニケーションデザイン,画像符号化,食メディア,一般)
- ラスタベクタ変換における部分遮蔽図形の輪郭線補完(画像・映像処理)
- 図形の線対称性を用いた輪郭線補完
- D-12-12 間接検索法による高速類似画像検索の検討(D-12.パターン認識・メディア理解A(パターンメディアの認識・理解・生成),一般セッション)