ブートストラップ式同位語辞書構築における検索効率の向上
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,同一の意味的階層に属する単語集合(同位語辞書)を高い検索効率でWebから抽出する方法を提案する.近年,Web 上に散在した知識を収集するアプローチの1 つとしてブートストラップ式同位語辞書構築手法が注目を集めている.サーチエンジンが提供する検索API は知識収集の強力なツールである.しかし,検索API を通じて大量の検索を行うことは,サーチエンジンに過剰な負荷をかけてしまうことになる.そのため,サーチエンジン側でも検索API を通じた検索回数を制限している.そこで本稿では,検索回数をコストとして考慮し,なるべく少ない検索回数でより多くの同位語を収集可能な検索戦略を求めることを目標とする.実験の結果,合計2 000回の検索で10 万語以上のキーワードを適合率0.9 以上で抽出することができた.
- 2008-06-26
著者
-
山田 敬嗣
NEC C&Cイノベーション研究所
-
山田 敬嗣
Nec C&cイノベーション研究所
-
國枝 和雄
Nec C&cイノべーション研究所
-
河合 英紀
日本電気株式会社 C&cイノベーション研究所
-
土田 正明
Nec共通基盤ソフトウェア研究所
-
水口 弘紀
NEC共通基盤ソフトウェア研究所
-
河合 英紀
NEC C&Cイノベーション研究所
-
河合 英紀
Nec C&cイノベーション研究所
-
山田 敬嗣
Nec C&cイノベーション推進本部
関連論文
- ソーシャルグラフを成長させるサービスにおけるインセンティブ付与方法の検討(ネットワークアーキテクチャ(オーバレイ,P2P,ユビキタスNW,スケールフリーNW,アクティブNW,NGN・新世代NW),次世代パケットトランスポート(高速Ethernet,IPoverWDM,マルチサービスパケット技術,MPLS),グリッド,一般)
- PD-11 身体的引き込み制御に基づく初対面仲介ロボット(一般発表(ポスター&デモ),第37回日本バイオフィードバック学術総会抄録集)
- 発想支援イベント「アイデアスロン」の実施と評価 : オフィスでのコミュニケーション活性化の実践(テーマセッション,コミュニケーション支援,共生コミュニケーション及び一般)
- 身体的引き込み制御に基づく初対面紹介ロボット
- 共創活動の参加動機に関する調査--Wikipedia参加者の参加動機因子 (ソフトウェアインタプライズモデリング)
- 初対面紹介エージェントにおけるコミュニケーションモデルと身体的引き込み制御(コミュニケーション支援(2),HCGシンポジウム)
- B-7-24 ソーシャルグラフを形成するサービスにおけるインセンティブ付与方法(B-7.情報ネットワーク,一般セッション)
- 5F-3 複数ユーザによる共創型アニメ制作システムの試作とその評価(仮想現実,一般セッション,インタフェース)
- インターネット検索サービス「BIGLOBEサーチAttayo」 (BIGLOBE特集) -- (広告・ポータル)
- インセンティブ報酬付与による情報伝播制御可能性の検証(ワイヤレス環境でのアプリケーション品質,P2P/アドホックネットワーク,画像符号化,ストリーム技術,信頼性,一般)
- ソーシャルネットワーク上の情報伝播において応答時間を短縮する報酬付与手法(2009年度MoMuC若手研究奨励賞受賞者講演)
- 共創活動の参加動機に関する調査 : Wikipedia参加者の参加動機因子(次世代経営情報技術,その他)
- 創造連鎖活動おける参加動機に関する調査
- ADS-1-5 長期の動線データを用いた集団活動の特徴抽出(ADS-1.信号処理のための機械学習,シンポジウムセッション)
- ADS-1-5 長期の動線データを用いた集団活動の特徴抽出(ADS-1. 信号処理のための機械学習,シンポジウムセッション)
- A-14-4 発話パターン解析による会議活性度測定システムの提案(A-14. ヒューマンコミュニケーション基礎,一般セッション)
- ライフロブサービスのデータ取得・管理方法と利用者の抵抗感の関係(情報管理技術3,インターネットと情報倫理教育,一般)
- ライフログサービスのデータ取得・管理方法と利用者の抵抗感の関係(情報管理技術3,インターネットと情報倫理教育,一般)
- 参加者の動線とコミュニケーション検出を用いた展示会活性度解析
- フロー体験に関する研究の動向と今後の可能性
- D-9-15 日常業務におけるE-mailの応答時間の解析(D-9.ライフインテリジェンスとオフィス情報システム,一般セッション)
- 動向情報マイニング--動向を取り出す (特集 動向情報と情報アクセス)
- ブログからの対象, 属性, 評価のオンデマンド評判情報分析システム
- 大塚裕子, 乾考司, 奥村学著, 意見分析エンジン-計算言語学と社会学の接点, pp.232, コロナ社, 2007
- ブートストラップ式同位語増殖における検索戦略の研究
- B-15-1 行動インセンティブを伝播させるグループインタラクションメカニズム(B-15.モバイルマルチメディア通信,一般セッション)
- D-9-16 電子メールにおける情報伝播過程の解析(D-9.ライフインテリジェンスとオフィス情報システム,一般セッション)
- 21世紀に向けて文字・文書メディアの認識・理解の夢と課題
- 共創行動解析のためのロボットシナリオ共創システム「ぱぺろっち!」の開発
- 第14回パターン認識国際会議(ICPR'98)報告
- 意見発信支援システムとしての「未来創造キャンバス」の開発
- 意見発信支援システムとしての「未来創造キャンバス」の開発
- Web質問紙とセンサデータに基づくオフィスワーカーの心理状態と活動状態の相関分析 (ライフインテリジェンスとオフィス情報システム)
- 発想支援イベント「アイデアスロン」の実施と評価 : オフィスでのコミュニケーション活性化の実践(テーマセッション,コミュニケーション支援,共生コミュニケーション及び一般)
- 発想支援イベント「アイデアスロン」の実施と評価 : オフィスでのコミュニケーション活性化の実践(テーマセッション,コミュニケーション支援,共生コミュニケーション及び一般)
- 創造連鎖活動おける参加動機に関する調査
- 創造連鎖活動おける参加動機に関する調査
- Web質問紙とセンサデータに基づくオフィスワーカーの心理状態と活動状態の相関分析(不均質なライフログからのデータマイニング及び一般)
- 電子メールのコンテンツに応じた伝播特性の解析(コミュニケーション支援,一般)
- 電子メールのコンテンツに応じた伝播特性の解析(コミュニケーション支援,一般)
- 創造的ワークショップを実現するロボット制御プログラミング環境
- 行動選択における意思決定要因の検討
- 臨場感図書館の遠隔利用実験とユーザインタフェース評価
- 意見発信支援システムとしての「未来創造キャンバス」の開発
- 発想支援イベント「アイデアスロン」の実施と評価 : オフィスでのコミュニケーション活性化の実践
- ブートストラップ式同位語辞書構築における検索効率の向上
- サイト品質管理のためのリンク不整合検出
- 新しい誤分類尺度を用いた学習ベクトル量子化の定式化 (パターン認識のための学習 : 基礎と応用)
- 学習ベクトル量子化の定式化と収束性の解析
- 最小分類誤りに基づく定正準化のための学習方法
- 誤り最小化に基づくマトリクスマッチング用テンプレートの学習方法
- ソーシャルネットワーク上の情報伝播における人の特性と行動の関係(ネットワーク品質,トラヒック計測,一般)
- Grand Challenge : 30年後の社会を創造する研究(テーマセッション,パターン認識とメディア理解のフロンティアとグランドチャレンジ)
- コミュニケーション活性度に基づいて発話制御を行う初対面紹介エージェント
- 意見発信支援システムとしての「未来創造キャンバス」の開発
- D-12-39 戻り書きに対応した枠なしオンライン文字切り出し手法
- 切り出し・認識・言語の確信度を統合した枠なしオンライン文字列認識手法
- 切り出しパラメータが学習可能なオンライン手書き文字切り出し手法
- 怪奇!!次元の呪い : 識別問題,パターン認識,データマイニングの初心者のために(後編)
- 怪奇!!次元の呪い : 識別問題,パターン認識,データマイニングの初心者のために(前編)
- 特定形状を用いた印刷単語大分類
- 隣接文字間の変形の依存性を考慮した連続HMM手書き単語認識
- D-12-19 文字接触形状検証を用いた接触数字の切り出し認識における検証ルールの自動生成
- D-12-18 区切り図形を用いた印刷英単語大分類方式
- D-12-17 確率に基づく順序算出による宛名領域出力方法の検討
- D-12-16 文字パタン間の依存性を考慮した文字列の学習と認識
- 文字接触形状検証を用いた接触数字の切り出し認識
- 拡張スプリット検出法による文書構造・読み取り順序解析
- 拡張スプリット検出法による文書構造解析
- 文書・文字メディア認識理解技術の新しい軸
- NEC C&Cイノベーション研究所
- 4)マルチメディア情報散策を可能とする仮想博物館システム(ヒューマンインフォメーション研究会)
- D-9-27 単語出現数の時間変動の類似性を用いた電子メールのトピック抽出(D-9.ライフインテリジェンスとオフィス情報システム,一般セッション)
- DP-1-4 ネットワークロボットによる活動促進とコミュニティ活性 : 高齢者同士をつなぐ(DP-1.ネットワークロボットからクラウドネットワークロボットヘ,パネルセッション,ソサイエティ企画)
- 動向情報マイニング : 動向を取り出す
- SNSを活性化させるインセンティブ報酬付与メカニズム(ネットワークソフトウエア(ソフトウエアアーキテクチャ,ミドルウエア),NWアプリケーション,SOA/SDP,NGN/IMS/API,分散制御・ダイナミックルーチング,グリッド,NW及びシステム信頼性,NW及びシステム評価,一般)
- グループ意思決定のための発言意図の可視化による議論支援システム(コミュニケーション支援,一般)
- グループ意思決定のための発言意図の可視化による議論支援システム(コミュニケーション支援,一般)
- P1-15 課題の種類と文化的自己観がフロー体験に及ぼす影響(ポスター発表(1))
- 環境行動促進システム"エコまめ"の提案と地域コミュニティへの適用
- AT-3-5 コミュニケーションダイナミクスの解析とその応用(AT-3.ブログ・インターネット・アドホックネットの集団効果・連成効果に関する最先端研究,チュートリアルセッション,ソサイエティ企画)
- B-15-16 拡張現実空間上の情報の位置提示手法に関する一検討(B-15.モバイルマルチメディア通信,一般セッション)
- 長期のセンサデータに基づくオフィスワーカーの固有行動パターンの獲得とその分析(ライフログ,ライフログ活用技術,オフィス情報システム,情報通信マネジメント,一般)
- 長期のセンサデータに基づくオフィスワーカーの固有行動パターンの獲得とその分析(ライフログ,ライフログ活用技術,オフィス情報システム,情報通信マネジメント,一般)
- 次世代パターン認識研究への期待・制約緩和からの脱却(フェロー記念講演,実世界文字認識と理解)
- ネットワーク・ロボットを使った高齢者の健康行動促進の試み
- 次世代パターン認識研究への期待・制約緩和からの脱却
- 節電行動に対する態度と他者行動可視化効果に関する心理学調査(一般セッション 教育と心理(3))
- 交替潜時と韻律情報に基づく会話同調制御方式と情報収集を目的とした会話エージェントへの実装
- O-038 時間的ゆとりがある状況下での携帯メールによる働きかけに対する応答特性(モデリング・一般,O分野:情報システム)
- J-009 対話ロボットによる高齢者のコミュニティ参加支援実験(HCI(2),J分野:ヒューマンコミュニケーション&インタラクション)
- TK-7-3 エネルギーマネージメントの現在と未来(TK-7.ICT技術が開く未来〜女性研究者の視点から〜,大会委員会企画)
- D-9-12 経路と心理状態の動的変化を取り入れたシミュレータ(D-9.ライフインテリジェンスとオフィス情報システム)
- TK-7-3 エネルギーマネージメントの現在と未来(TK-7.ICT技術が開く未来〜女性研究者の視点から〜,大会委員会企画)
- TK-7-3 エネルギーマネージメントの現在と未来(TK-7.ICT技術が開く未来〜女性研究者の視点から〜,大会委員会企画)
- D-9-17 交通統計データに基づくユーザタイプのモデリング手法(D-9.ライフインテリジェンスとオフィス情報システム)
- TK-7-3 エネルギーマネージメントの現在と未来(TK-7.ICT技術が開く未来〜女性研究者の視点から〜,大会委員会企画)
- TK-7-3 エネルギーマネージメントの現在と未来(TK-7.ICT技術が開く未来〜女性研究者の視点から〜,大会委員会企画)
- TK-7-3 エネルギーマネージメントの現在と未来(TK-7.ICT技術が開く未来〜女性研究者の視点から〜,大会委員会企画)
- TK-7-3 エネルギーマネージメントの現在と未来(TK-7.ICT技術が開く未来〜女性研究者の視点から〜,大会委員会企画)