キャプションと記事テキストの文字列照合による報道番組と新聞記事との対応づけの自動化
スポンサーリンク
概要
- 論文の詳細を見る
本稿では, ニュースの各報道に対応する新聞記事をキャプションと記事の文字列照合により特定する手法を提案する. キャプションと記事中に共通に現れた文字列の長さと出現位置, 出現頻度により重みづけし, 類似度を計算する. そして類似度が最大で閥値以上のものを選ぶ. 学習サンプルによって各パラメータの値を決定した結果, 学習サンプルで再現率100%, 適合率93.2%, 約2週間後のテストサンプルで再現率98.0%, 適合率77.8% (閥値のみ決め直した場合, 再現率98.0%, 適合率84.5%), 約7力月後のテストサンプルで再現率97.1%, 適合率79.5%(閥値のみ決め直した場合, 再現率94.1%, 適合率85.3%), という精度が得られた. また事例を検討し, 長い文字列に重みを与えすぎることの弊害を明確にした.
- 社団法人情報処理学会の論文
- 1997-06-15
著者
-
渡辺 靖彦
龍谷大学理工学部情報メディア学科
-
渡辺 靖彦
龍谷大学理工学部電子情報学科
-
長尾 眞
京都大学工学部電気工学第二教室
-
角田 達彦
東京大学医科学研究所
-
大石 巧
京都大学工学研究科電子通信工学
-
角田 達彦
京都大学工学研究科電子通信工学
-
大石 巧
京都大学大学院工学研究科電子通信工学専攻
-
長尾 真
京都大学工学部電気工学第2学科
-
長尾 真
独立行政法人情報通信研究機構
-
長尾 眞
京都大学工学研究科電子通信工学
-
長尾 眞
京都大学大学院情報学研究科知能情報学専攻
-
渡辺 靖彦
龍谷大学理工学研究科情報メディア学専攻
関連論文
- 6.言語・画像のデータ依存情報処理(情報処理技術の未来地図,50周年記念特集号)
- コミュニケーションサイトに投稿されたメッセージに対する著者の推定(情報抽出(テーマセッション3))
- 国立国会図書館 館長対談(第13回)前フランス国立図書館長 ジャン-ノエル・ジャンヌネー氏 文化の多様性と知の伝承
- シーン内のテキストの認識および翻訳
- 機械翻訳カメラ
- 本の森を歩く(特別篇)館長 長尾真が読書週間に選ぶ9冊
- 表記選択支援のための優勢表記辞書の作成(語彙)
- 問い返しを用いた英作文学習支援(コミュニケーション支援(テーマセッション3))
- メールの文章における段落間の接続の強さの推定(コミュニケーション支援(テーマセッション3))
- 指の触覚特性に基づく微細形状の詳細度制御
- 三次元形状データの構造解析に基づく部分形状表現(コンピュータグラフィックス(CG)基礎)
- あいまいな質問に問い返すためのメーリングリストを利用した知識獲得(言語理解とオントロジーシンポジウム)
- あいまいな質問に問い返すためのメーリングリストを利用した知識獲得
- 同義語を用いた質問文の拡張による係り受け関係の柔軟な照合(文の解析)
- メーリングリストを利用した質問応答システムのための知識の内容確認(意味・応用)
- メーリングリストを利用した質問応答システムのための知識獲得
- メーリングリストを利用した質問応答システムのための知識獲得(質問応答)
- カメラつき携帯電話を利用したシーン中の文字の認識と翻訳 : TCMP:Translation Camera on Mobile Phone(文字とドキュメントの認識・理解)
- カメラつき携帯電話を利用したシーン中の文字の認識と翻訳 : TCMP: Translation Camera on Mobile Phone(文字とドキュメントの認識・理解))
- シーン中のテキストの解析と利用 (ことば工学研究会(第2回)テーマ:一般講演)
- 遠隔対話型行動記録による教示コンテンツの獲得(一般,膨大なデータから学ぶもの)
- 絵画解説文の対象情報・感性的情報の抽出
- 画像の内容を説明するテキストを利用した画像解析
- キャプションと記事テキストの文字列照合による報道番組と新聞記事との対応づけの自動化
- パターン情報と自然言語情報の統合による植物図鑑の図の理解
- キャプションと記事テキストの最長一致文字列照合による報道番組と新聞記事との対応づけの自動化
- 図鑑の解説文から内容抽出を行うための専門知識の構築
- 植物図鑑のテキストと図による植物用語間の階層関係の獲得
- 概念の属性を表す名詞述語文の述語の自動分類
- 図鑑の解説文から内容抽出を行なうための専門知識の構築
- IPAL辞書と分類語語彙を用いた単語意味辞書の作成
- TVニュースと新聞記事の対応づけ
- 表層的手がかりによる六法全書法律文での要件部・効果部の抽出手法
- nグラム統計によるコーパスからの未知語抽出
- 国立国会図書館 館長対談(第12回)児童文学者 松岡享子氏 読書は本とのコミュニケーション
- 国立国会図書館 館長対談(第11回)立命館大学教授、京都大学特任教授 佐和隆光氏 持続可能で豊かな社会を
- 国立国会図書館 館長対談(第10回)慶應義塾学事顧問、慶應義塾大学教授 安西祐一郎氏 知識は力である
- 予測単位の変更によるn-gramモデルの改善
- 予測単位の変更によるn-gramモデルの改善
- 予測単位の変更によるn-gramモデルの改善
- 連語登録による形態素解析システムJUMANの精度向上
- 表層表現を利用した日本語文章における後方照応表現の自動抽出
- 表層表現を利用した日本語文章における後方照応表現の自動抽出
- 日本語表層表現を手がかりとした名詞の指示性と数の推定
- 日本語表層表現を手がかりとした名詞の指示性と数の推定
- 投稿履歴と文体の類似判定を利用したQ&Aサイトにおけるなりすましユーザの検出
- Q&Aサイトでのコミュニケーションを操作しようとするユーザの異なるカテゴリに投稿されたメッセージを用いた推定(第1回集合知シンポジウム〜言語処理が紡ぎ出す未来〜)
- キャプションと記事テキストの最長一致文字列照合による報道番組と新聞記事との対応づけの自動化
- 画像の内容を説明するテキストを利用した画像解析
- χ^2法を用いた重要漢字の自動抽出と文書の自動分類
- 植物図鑑のテキストと図による植物用語間の階層関係の獲得
- パターン情報と自然言語情報の統合による植物図鑑の図の理解
- X^2法を用いた重要漢字の自動抽出と文献の自動分類
- Q&Aサイトに投稿する質問に書くべき情報の特殊さの推定(第1回集合知シンポジウム〜言語処理が紡ぎ出す未来〜)
- 形態素クラスタリングによる形態素解析精度の向上
- タグ付きコーパスからの統語規則の獲得
- 新春対談 彫刻家、東京藝術大学名誉教授・顧問 澄川喜一氏 国立国会図書館長 長尾真 日本の文化力再発見
- 電子出版と国立国会図書館
- 「AIマップ-自然言語へのアプローチ」に対するコメントと回答
- nグラム統計によるコーパスからの未知語抽出
- nグラム統計によるコーパスからの未知語抽出
- 対訳文章を利用した専門用語対訳辞書の自動作成 : 訳語対応における両立不可能性を考慮した手法について
- 談話管理理論を用いた対話処理 : 名詞句の解析と生成について
- 問い返しを用いた英作文学習支援(コミュニケーション支援(テーマセッション3))
- メールの文章における段落間の接続の強さの推定(コミュニケーション支援(テーマセッション3))
- メーリングリストを利用した質問応答システムのための知識の内容確認(意味・応用)
- マルチエージェントシステムに対する期待
- AIマップ : 自然言語へのアプローチ
- 京都大学統合情報通信システムKUINSの基本概念とシステム設計
- 電子図書館Ariadneの開発 (5) : —電子図書館をめぐる諸問題—
- 遠隔対話型行動記録による教示コンテンツの獲得(一般,膨大なデータから学ぶもの)
- 特別対談 新たな文化創造とクラウド化を展望する (特集 クラウド時代における電子ブックと流通問題)
- 電子図書館Ariadneの開発 (2) : —データの入力と編集—
- TVニュースと新聞記事の対応づけ
- TVニュースと新聞記事の対応づけ
- 情報学の明日を考える (特集 情報学の第4ステージ)
- TVニュースと新聞記事を対象にしたマルチメディアデータベースシステム
- TVニュースと新聞記事を対象にしたマルチメディアデータベースシステム
- TVニュースで用いられるテロップの意味解析
- 漢字対応の利用による日中対訳テキストの文対応付け
- 類似性に基づいた日韓対訳テキストの文対応
- 用例検索による韓日・日韓翻訳支援システム
- 日英対訳文間の構造照合
- 日本語構文解析システム「KNP」のハングル化とそれを用いた日本語から韓国語への対照分析
- 部分文字列情報の利用による日本語単語の高速検索
- 大規模日本語テキストのnグラム統計の作り方と語句の自動抽出
- 電子図書館Ariadneの開発 (4) : —読書支援機能—
- 新春対談 国立国会図書館蔵書のデジタル化とJIIMAの取組み
- 新春エッセー 国民読書年を迎えて
- 語彙化マルコフモデルによる英語品詞タグ付け
- 形態素bi-gramと品詞bi-gramの重ね合わせによる形態素解析
- 統計によるタグ付きコーパスからの統語規則の獲得
- 国立国会図書館の現状と将来[含 質疑応答] (特集 日本図書館研究会第52回(2010年度)研究大会) -- (シンポジウム 次代を切りひらく図書館の挑戦)
- 電子図書館Ariadneの開発 (3) : —検索支援機能—
- 大震災の記録保存に努力しよう
- 類似度からの検索質問生成による効率的類似用例検索
- 回答の投稿から質問解決までの時間に着目したQ&Aサイトにおける評価を操作しようとするユーザの検出(Q&A,第2回集合知シンポジウム)
- Q&Aサイトにおいて1つの質問に対して複数のアカウントを用いて複数の回答を投稿するユーザの検出(Q&A,第2回集合知シンポジウム)
- Q&Aサイトで繰り返し一緒に回答を投稿するユーザ間での投稿順序の偏りの調査(第3回集合知シンポジウム)
- 日本語と英語のツイー卜の末尾にある不読符号列の比較