レシピのテキスト及び画像特徴の学習による画像からの素材・調理法の推定(一般セッション,機械学習と視覚情報処理の接点,及び,社会テーマ:ハイリスク作業支援)
スポンサーリンク
概要
- 論文の詳細を見る
料理レシピから抽出したテキスト特徴と画像特徴を同時に学習しモデル化することによって、料理画像の入力に対し素材や調理法を推定する手法を提案する.料理のジャンルを潜在的な変数として考慮するため, 文書解析に用いられるトピックモデルの一つであるLDA (Latent Dirichlet Allocation)を適用し,個々のレシピをドキュメント,そのレシピから抽出される特徴ベクトルをワードとしてパラメータの推定を行いモデルを生成する.特徴ベクトルとして,部分画像単位で求めた局所特徴と色ヒストグラムに基づく画像特徴,およびテキストの形態素解析により抽出した単語とをそれぞれシンボル列として結合し同時に学習することで,それらの共起性の高いシンボルを含むトピック群が生成される.4600レシピの画像とテキストの料理名部分に含まれる単語の学習によっ てモデルを生成したところ,料理のジャンルに関連すると思われるトピックが 観察された.このモデルを用いて料理のジャンル(トピック)と単語の推定実験を行った結果,新たな100件のレシピの画像の入力に対して,約80件についてジャンルを正しく 推定し,46レシピについては上位10位以内に実際の料理名中の素材や調理を示 す単語が含まれており,今後,栄養推定に応用できる可能性が示唆 された.
- 一般社団法人電子情報通信学会の論文
- 2013-08-26
著者
-
谷口 行信
日本電信電話(株)nttサイバーソリューション研究所
-
村崎 和彦
日本電信電話株式会社NTTメディアインテリジェンス研究所
-
島村 潤
日本電信電話株式会社 NTTメディアインテリジェンス研究所
-
数藤 恭子
日本電信電話株式会社 NTTメディアインテリジェンス研究所
関連論文
- MCMC法に基づく対象と環境に三次元モデルを用いた人物追跡(画像認識,コンピュータビジョン)
- 単眼動画像を用いた近接する複数対象の三次元追跡(一般,膨大なデータから学ぶもの)
- 分散偏在する映像からのコミュニティ形成方法の評価(オフィスインフォメーションシステム,ディジタルドキュメント、一般)
- 映像シーンとWeb文書との自動対応付けによるWeb情報ナビゲーションシステム(テーマセッション,データ工学とメディア理解との融合)
- ウェブ情報を用いた動的な意味ビジュアルモデルのマイニング(テーマセッション,データ工学とメディア理解との融合)
- 個人撮影映像を対象とした映像速覧のための"笑い"シーン検出法(ディジタルコンテンツ制作-DCS'07関連-)
- LI_007 MCMC法に基づく3次元環境情報を用いた複数人物追跡(I分野:画像認識・メディア理解)
- プロジェクタ・カメラシステムにおける射影変換行列と直線パターン検出に基づく複数平面の検出
- 透視投影画像と平行投影画像を利用した3次元フロー推定(画像処理,画像パターン認識)
- HCIのための赤外線カメラを用いた3次元追跡手法
- 足圧中心の時間的な移動と空間的な移動軌跡に基づく歩行の良さの定量評価(画像認識,コンピュータビジョン)
- 高齢者の転倒予防のための歩行パラメータ抽出の検討
- I-83 医用画像情報統一管理のための撮像属性判別手法(画像レイアウト解析,I.画像認識・メディア理解)
- D-11-126 顔検出を用いた投稿動画の公開可否判断の効率化(D-11. 画像工学,一般セッション)
- 単眼動画像を用いた近接する複数対象の三次元追跡(一般,膨大なデータから学ぶもの)
- 遠隔映像モニタリングシステムを用いたオフィス状況監視
- 遠隔映像モニタリングシステムを用いたオフィス状況監視
- A-16-30 SceneMarket : 映像素材流通のための協調アノテーション
- D-12-46 位置・姿勢情報と画像情報に基づく空撮映像のモザイク画像合成
- SceneCabinet:映像解析技術を統合した映像インデクシングシステム
- 映像コンテンツの構造化・検索技術 (特集 情報流通プラットフォームが拓く21世紀のネットワーク化社会(2))
- 分散偏在する映像からのコミュニティ形成方法の評価(オフィスインフォメーションシステム,ディジタルドキュメント、一般)
- 映像シーンとWeb文書との自動対応付けによるWeb情報ナビゲーションシステム(テーマセッション,データ工学とメディア理解との融合)
- ウェブ情報を用いた動的な意味ビジュアルモデルのマイニング(テーマセッション,データ工学とメディア理解との融合)
- 来訪者特徴の推定を利用した「場所メタデータ」自動生成(不均質なライフログからのデータマイニング及び一般)
- 構造化撮影テンプレートを用いた個人映像制作支援システム
- 構造化撮影テンプレートを用いた個人映像制作支援システム(マルチメディア(システム/通信/ネットワーク),放送通信連携サービスとその品質,一般)
- 構造化撮影テンプレートを用いた個人映像制作支援システム(マルチメディア(システム/通信/ネットワーク),放送通信連携サービスとその品質,一般)
- 構造化撮影テンプレートを用いた個人映像制作支援システム(マルチメディア(システム/通信/ネットワーク),放送通信連携サービスとその品質,一般)
- D-12-94 CGM動画を対象とした感情表出区間自動検出法(D-12.パターン認識・メディア理解,一般講演)
- 5E-4 ライフスタイルと地理的特徴との関係を利用した場所メタデータ自動生成(ユビキタス,一般セッション,ネットワーク,情報処理学会創立50周年記念)
- D-12-53 被写体形状の球面展開に基づく3次元物体認識の一検討(D-12.パターン認識・メディア理解,一般セッション)
- B-16-8 オフィスサイネージのユースケース検討(B-16. インターネットアーキテクチャ,一般セッション)
- ディジタルサイネージの放映計画最適化(情報・システム基礎)
- プロジェクタを用いた動的実環境における観測位置依存映像提示(「投影型インタフェース」特集)
- 室内構造推定とSaliency Mapとを用いた看板検出技術(一般セッション,PRMUの拓く未来:Webスケール時代のパターン認識)
- Procrustes解析を用いた形状マッチング手法の提案と衣服画像における類似性判定への適用(一般セッション,実世界文字認識と理解)
- 被写体形状・テクスチャの球面展開に基づく3次元物体認識(実世界センシングとその応用)
- 被写体形状・テクスチャの球面展開に基づく3次元物体認識(実世界センシングとその応用)
- 幾何制約を用いた被写体形状・テクスチャの球面展開に基づく3次元物体認識
- 幾何制約を用いた被写体形状・テクスチャの球面展開に基づく3次元物体認識
- 衣服の形状・色・柄による類似性判定と検索への応用 (パターン認識・メディア理解)
- 単眼動画像を用いた近接する複数対象の三次元追跡
- 単眼動画像を用いた近接する複数対象の三次元追跡
- 色,テクスチャ,及びタグ付けされた単語に基づいた画像の印象評価モデルの構築と分析
- 顧客行動の観測に基づく顧客の重視する商品属性の推定
- 商品写真から受ける印象と画像特徴の関係のモデル化
- 映像コンテンツ推薦システムのフィールド実験による主観評価(推薦システム,グループウェアとネットワーク,ライフログ活用技術,オフィス情報システム,セキュリティ心理学とトラスト,一般)
- 複数アルゴリズムの評価検討を踏まえた映像コンテンツ推薦システムの設計と実装(推薦システム,グループウェアとネットワーク,ライフログ活用技術,オフィス情報システム,セキュリティ心理学とトラスト,一般)
- 勾配方向の双対性とフラクタル次元を用いた細長い人工遮蔽物の検出
- 空間的連続性を考慮した物体領域とその境界線を同時表現するトピックモデル(画像・映像解析,画像の認識・理解論文)
- 衣服の形状・色・柄による類似性判定と検索への応用(テーマセッション,パターン認識によるインタフェースの未来)
- 符号化照明を使ったライト・トランスポートの獲得(画像・メディア処理技術,および一般)
- サブトピックの組み合わせを考慮した画像辞書の学習による画像分類 : TRECVid 2012 Semantic Video Concept Detection参加報告(テーマセッション,大規模データベースとパターン認識)
- 3次元点群からの局所形状と大域的な形状モデルを用いた柱状物体検出(テーマセッション,大規模データベースとパターン認識)
- D-12-62 ユーザフィードバックを利用した個人に適合する階層的画像分類(D-12.パターン認識・メディア理解B(コンピュータビジョンとコンピュータグラフィックス))
- オクルージョン境界検出のための3次元構成のトピック化(テーマセッション,大規模データベースとパターン認識)
- レシピのテキスト及び画像特徴の学習による画像からの素材・調理法の推定(一般セッション,機械学習と視覚情報処理の接点,及び,社会テーマ:ハイリスク作業支援)
- 映像コンテンツ推薦システムのフィールド実験による主観評価
- 複数アルゴリズムの評価検討を踏まえた映像コンテンツ推薦システムの設計と実装