ユーザの簡易指定に基づく情景中の文字抽出と認識(画像情報)
スポンサーリンク
概要
- 論文の詳細を見る
情景画像中の文字を認識し, その文字情報に基づいた様々なコンテンツを利用することができれば, 非常に利便性が高い.これを実現するための技術として解決しなければならない重要な課題は, 複雑な情景画像中の所望の文字をいかに抽出し認識するかということである.本論文では, ユーザが簡易に指定した領域の情報を基に, 正確な文字領域を抽出し認識する手法を提案する.これは, すべての領域を自動抽出しその後ユーザに所望の領域を選択させるよりも, あらかじめユーザに位置を指定させた方が計算量や抽出精度の点で有利であると考えられるためである.この際, ユーザが正確に領域を指定する必要がないことが, 使いやすさのうえで重要であると考える.提案手法は, 可変テンプレートをベースとして, ユーザが指定した初期領域と同じ性質を持つ最大の領域を抽出することで最終的な文字領域を抽出する.領域抽出後は, 判別分析法による2値化, 射影により各文字パターンを切り出し認識を行う.
- 一般社団法人情報処理学会の論文
- 2005-10-15
著者
-
榑松 明
電気通信大学電子工学専攻
-
榑松 明
電気通信大学大学院電気通信学研究科
-
榑松 明
電気通信大学 電子工学科
-
榑松 明
電気通信大学 電気通信学研究科 電子工学専攻
-
長井 隆行
電気通信大学
-
張 暁暉
電気通信大学電子工学専攻
関連論文
- 印象語から想起した音声情報の特徴量空間の分析
- J-028 音声対話システム利用時における感情表出誘因性に関する考察(ヒューマンコミュニケーション&インタラクション,一般論文)
- 視覚情報および使い方と機能の関係に基づく物体概念のモデル化(HCGシンポジウム)
- ロボットによる発話理解過程に基づく相互信念の形成
- マルチモーダル情報に基づく物体概念の形成 (コミュニケーションクオリティ)
- 実世界における人とロボットの共有信念の推定に基づいた相互適応的な発話生成
- 実世界における人とロボットの共有信念に基づいた相互適応的な発話生成(対話,第10回音声言語シンポジウム)
- 変分ベイズ法を用いたモデル構造探索に基づく抽象的単語の学習(人工知能,認知科学)
- ロボットによる発話理解過程に基づく相互信念の形成
- 印象空間における音声と文字の対応関係の分析
- A-4-12 周波数選択特性を有する荷重メジアンフィルタによるボケと雑音で劣化した画像の復元
- 眼鏡を含む顔画像からの構成部品の抽出
- I-66 サブバンドEHMMを用いた低解像度文字画像の高解像度化(画像高解像度化・劣化復元,I.画像認識・メディア理解)
- 線形位相双直交フィルタバンクの新しい設計アプローチ
- 線形位相完全再構成FIRフィルタバンクの設計
- 頭部伝達関数を利用したロボットによる音源定位能力の自律的な獲得(一般セッション(7))(ユビキタスコンピューティングのためのパターン認識・理解)
- A-10-17 頭部伝達関数を利用したロボットによる音源定位能力の自律的な獲得(A-10. 応用音響)
- 5Y-1 複数特徴量を統合したパーティクルフィルタによる物体の検出と追跡(ロボットビジョン,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 3X-9 距離情報を用いた3次元物体認識(3次元画像処理・認識,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 情景画像中の文字及び看板領域の抽出
- 情景画像中の文字及び看板領域の抽出
- 情景画像中の文字及び看板領域の抽出
- マルチモーダル情報に基づく物体概念の形成(一般セッション,クロスモーダル)
- マルチモーダル情報に基づく物体概念の形成(一般セッション,クロスモーダル)
- マルチモーダル情報に基づく物体概念の形成(一般セッション,クロスモーダル)
- マルチモーダル情報に基づく物体概念の形成(一般セッション,クロスモーダル)
- 顔のワイヤフレームモデルの自動適合の一手法
- SNAKEを用いた顔画像からの構成部品の輪郭抽出
- SNAKEを用いた顔画像からの構成部品の輪郭抽出
- AI-1-2 マルチモーダルカテゴリゼーションに基づくロボットの概念形成と実世界理解(AI-1.マルチモーダル信号処理とその応用,依頼シンポジウム,ソサイエティ企画)
- 機能と視覚的情報の関係性に基づく物体の概念モデル
- 5V-3 把持動作による物体カテゴリの形成と認識(人工知能一般(4),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 5V-1 自然言語によるロボットプログラミング(人工知能一般(4),学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- D-8-3 LDAを用いたマルチモーダル物体概念に基づく語意獲得(D-8. 人工知能と知識処理,一般セッション)
- ロボットによる物体のマルチモーダルカテゴリゼーション(人工知能,認知科学)
- RF-002 グラフィカルモデルを用いた物体概念モデル(人工知能・ゲーム,査読付き論文)
- 対話ロボットの為のマルチモーダルな想起と連想(HCGシンポジウム)
- 自由会話における発話内容と基本周波数変化の分析
- 基本周波数変化による自由会話の句境界検出
- 日本語自由発話会話音声のピッチパターンのラベリング認識
- 自由会話における基本周波数の立て直し現象に関する検討
- 韻律情報を利用した単語境界・文節境界検出の検討
- LPCケプストラムとピッチを用いたGMMに基づく話者認識(音響と音声処理,音声強調,ロバスト音声認識)
- LPCケプストラムとピッチを用いたGMMに基づく話者認識(音響と音声処理,音声強調,ロバスト音声認識)
- J-1 周波数選択特性を有する荷重メジアンフィルタによる雑音で劣化した画像の復元(画像処理1,J.グラフィクス・画像)
- 音声翻訳の課題
- 固有空間を利用した計算機による似顔絵の生成
- MPEG符号化されたサッカー映像に対するシーンの自動分類のための情報抽出(映像情報の検索技術と編集処理)
- 1-6 MPEG符号化データを利用したサッカー映像の自動分類
- 顔部品の形状特徴と配置特徴の強調による似顔絵の生成
- 23-8 固有空間を利用した似顔絵の自動生成
- SA-7-1 固有空間の切換えによる異なる画調の似顔絵の生成
- ニューラルネットワークを用いた音声と画像の統合による数の認識
- スケジューリングタスクの自由発話音声の言語的性質
- 音声自由会話の特徴分析
- 10-6 KL展開を用いた手形状認識
- 言語情報処理への期待
- ユーザの簡易指定に基づく情景中の文字抽出と認識(画像情報)
- HMMを用いたシーンのアピアランスモデルとFace-to-Face変換への応用(一般セッション(7))(ユビキタスコンピューティングのためのパターン認識・理解)
- 動きアテンションによる物体の抽出とオンライン教師なし学習による物体認識(一般セッション(3))(ユビキタスコンピューティングのためのパターン認識・理解)
- A-10-24 話者モデルを用いた多チャンネル混合音声分離(A-10. 応用音響)
- A-10-23 参照再構成法を用いた周波数領域における混合音の分離(A-10. 応用音響)
- D-12-158 動きアテンションによる物体の抽出とオンライン教師なし学習による物体認識(D-12. パターン認識・メディア理解B)
- 話者情報を用いた周波数振り分けによる混合音声分離
- 参照再構成法を用いた時間領域における雑音除去と音響変化点抽出
- 領域拡張に基づく情景画像中の文字の抽出と認識
- 周波数振分けによるマルチチャネル混合音声の分離と音源定位(電気音響,音響一般)
- HMMを用いた単一画像からの物体形状復元(画像処理,画像パターン認識)
- 情景画像からの看板領域および看板文字の自動抽出(画像処理)
- D-14-7 サブバンド HMM を用いた音声の広帯域化
- マイクロホンアレーを用いた話者位置推定による車載音声認識
- マイクロホンアレーを用いた話者位置推定による車載音声認識
- マイクロホンアレーを用いた話者位置推定による車載音声認識
- SD-2-4 2次元MUSIC法による話者位置推定を用いた車載音声認識
- 車載音声認識のための2次元MUSIC法を用いた話者位置推定
- 屋内外の情景画像を対象とした看板文字の自動抽出
- D-12-23 情景画像からの情報取得を目的とした看板文字の自動認識
- 基本周波数時系列データを用いた会話音声の韻律制御の検討
- 音素配列構造の制約を用いた音素タイプライタ
- 識別関数を用いたMPEGオーディオ情報の自動分類
- MPEG符号化データからのAudio情報の分類
- キーワードスポッティングを用いた話題抽出
- キーワードスポッティングを用いた話題抽出
- 携帯電話のためのコマンド音声認識
- 1-5 情景画像中の看板領域の抽出
- 重回帰写像モデルに基づく話者適応法の検討
- 音節バイグラムを用いた固有名詞の音声認識
- A-4-24 マイクロフォンアレーを用いた三次元空間における複数話者位置推定
- 自由会話における数字音声に対する音声認識の検討
- D-14-12 到来時間差を利用した周波数振り分けによる混合音声分離
- 周波数領域における混合音声の分離
- 周波数領域における混合音声の分離
- マイクロホン対を用いた帯域分割型固有分解による混合音声の分離
- スケジューリングタスクにおける自由発話音声の特徴
- スケジューリングタスクにおける自由発話音声の言語的性質
- 24-1 隠れマルコフモデルを用いた手形状認識
- 連続音声認識における可変長音声単位の検討
- 音声知的通信についての考察
- 屋内外の情景画像を対象とした看板文字の自動抽出
- 線形予測分析を用いた話者の個人性変換法の検討