人名のかな表記のゆれに基づく近似文字列照合法
スポンサーリンク
概要
- 論文の詳細を見る
日本人名のかな表記にゆれとよばれる変形が存在し、日本語情報検索システムの問題となっている.本論文では人名のかな表記にゆれが存在してももれのない検索を可能とする近似文字列照合法を提案する.ゆれの問題に対処するためには表記を統一して検索を行うことが一般的であるが,現在かな表記を統一する基準は明らかではなく,そのため統一すべきゆれが多種になった場合の対策も明らかになっていない.本文では日本人名約3,000万件を解析し,姓のゆれのデータを収集分析する.その結果,姓は9万種の姓のゆれ単位に分類できること,実データ上で58%の姓に何らかのゆれが存在すること,ゆれの原因は連濁などの接続部の変化が大部分を占めることを明らかにする.さらにこのゆれの関係に基づいた正規化による照合を提案する.すなわち,実際にすべてのゆれを21,276組の文字列の等式関係で記述し,そこから自動的に15,841の正規化規則を作成して照合する方法を提案する.この正規化規則を使った照合法を人名の分布にしたがった検索に適用し,再現率と連合率の観点から評価を行った.その結果,93%の適合率を達成したうえで,完全一致検索では1検索あたり15%存在していたゆれによる検索もれを解消した.人名についてかな表記のゆれが存在してももれのない検索が可能となった.
- 一般社団法人情報処理学会の論文
- 1995-08-15
著者
関連論文
- プライバシ保護活用技術の海外動向および考察
- 4V-6 SYNパケットの呼応に着目したP2P トラフィックの表示(P2P,学生セッション,ネットワーク)
- 文字コードに依存しない情報検索の実現
- n-gram解析を用いた画像中のパターン抽出
- BSGS法を利用したビット分解プロトコル
- 位置指向の情報の収集, 構造化および検索手法
- 位置指向の情報構造化と情報フィルタリング : モーバイルインフォサーチ3実験
- 広告の自動構造化
- WWWサーバの利用記録に基づく検索行動の分析
- 位置指向の情報統合 : モーバイルインフォサーチ2実験
- 情報分布を考慮した外部リソースの位置指向情報検索
- 特定分野のリソース収集を行うWWWロボットの性能評価
- GISを用いた位置指向のWWWサーチエンジン : モーバイルインフォサーチ2実験
- 不均一で分散した情報の構造情報集との関連付けによる統合 : 情報統合ディレクトリ(ソフトウェアエージェントとその応用論文特集)
- 個人適応型WWWにおけるユーザモデル構築法(次世代ヒューマンインタフェース・インタラクション)
- 個人適応型WWWのためのユーザの行動モデリング
- 情報内容を考慮した情報収集方法
- モーバイルインフォサーチ: 移動環境下でのユーザ指向型WWW検索
- 依存関係を考慮したミラーサーバの高速同期方式
- WWWにおける検索ランキングとそのSocial Filteringとしての効果
- インターネット・タウンページの構築 : 個人適応型 WWW の試み
- インターネット・タウンページの構築 (2) : あいまい検索技術
- インターネット・タウンページの構築 (1) : 概要
- ISLisp処理系の開発と複合他システムインタフェースについて
- ISO規格ISLISP処理系におけるオブジェクトシステムの実装について
- ISO規格ISLISP処理系の実装方式
- ISO規格ISLISP処理系の開発
- データ並列言語におけるベクトルプロセッサ向きコード生成
- 3ZD-4 人間の動作に対するアノマリ型異常検知システムの実装(センシング・複雑系・その他,学生セッション,人工知能と認知科学)
- 3ZD-3 Compression-based Dissimilarity Measure(CDM)を用いた人感センサ情報の類似判定(センシング・複雑系・その他,学生セッション,人工知能と認知科学)
- 3ZD-2 情報量の最大化に基づく指向性センサの方向制御(センシング・複雑系・その他,学生セッション,人工知能と認知科学)
- 3ZD-1 仮想ユビキタスセンサにおける測定値補完システムのプロトタイプ構築(センシング・複雑系・その他,学生セッション,人工知能と認知科学)
- DS-2-5 Compression-based Dissimilarity Measure(CDM)を用いた人態センサ情報の類似判定(DS-2. 安全安心とセンシングネットワーク,シンポジウムセッション)
- 効果的なデータ拡散に向けたオーバレイトポロジの比較(シンクライアントとネットワーク)
- 固有表現自動獲得に向けての固有表現とコンテキストの関連度(語彙知識)
- スナップショットを用いたデバッグ環境の構築(セッション8:仮想化技術(2))
- 相関障害への耐性の高い広域分散データ配置の検討(セッション5:ストレージ)
- 条件付URIによる認証方式の検討
- 文字列をk回以上含む文書数の計数アルゴリズム
- 二語の共通周辺文字列の長さに着目した語文脈類似判定(マイニング・知識獲得・固有表現)
- 電子記録債権法の概要と技術的な課題(セッションA-5:法律と社会,報告)
- M-55 シームレスネットワークにおけるマルチキャスト通信の実現(情報共有システム(1),M.ネットワーク・モバイルコンピューティング)
- DS-2-8 自律型省電力サンプリングのアプリケーション評価(DS-2.安全安心,センシングネットワークとAI,シンポジウムセッション)
- 編集にあたって (位置情報を利用したモバイルコンピューティング)
- 高機能化携帯電話によって提案される新規社会情報基盤 (携帯電話の科学(5))
- 高効率3パーティ秘匿関数計算の情報理論的安全性
- マルチパーティ計算による効率的なビット分解プロトコル
- 2パーティ秘匿回路計算を利用したプライバシー保護データ分析実験報告(1) : CSS2009における行動分析
- 情報大航海プロジェクトにおける個人情報匿名化基盤の構築と検証
- 情報大航海プロジェクトにおける個人情報匿名化基盤の構築と検証
- 効率的な3パーティ秘匿関数計算の提案とその運用モデルの考察
- 条件付URIによる認証方式の検討
- マルチパーティ計算による効率的なビット分解プロトコル
- 在宅勤務におけるICTと法律上の問題および分析
- 高効率3パーティ秘匿関数計算の情報理論的安全性
- DS-2-2 インターユビキタスネットワーク情報基盤のための人間行動マイニング(DS-2. 安全安心とセンシングネットワーク,シンポジウムセッション)
- 位置指向の情報構造化と情報フィルタリング : モーバイルインフォサーチ3実験
- 2パーティ秘匿回路計算を利用したプライバシー保護データ分析実験報告(1)- CSS2009における行動分析-
- 2パーティ秘匿回路計算を利用したプライバシー保護データ分析実験報告(1)- CSS2009における行動分析-
- 次世代プライバシ保護サービスのコンセプト提案
- 意思決定を支援する情報案内システム : Action Navigator
- コミュニティ形成を支援する情報案内システム Action Navigator : ICMAS96 Mobile Assistant Project
- プライバシ保護活用技術の海外動向および考察
- オブジェクト指向データベースを用いたインターネット版マルチメディア電話帳
- 効率的な3パーティ秘匿関数計算の提案とその運用モデルの考察
- 電子記録債権法の概要と技術的な課題(セッションA-5:法律と社会,報告)
- 広告の自動構造化
- 2パーティ秘匿回路計算を利用したプライバシー保護データ分析実験報告(1) : CSS2009における行動分析
- 効率的な3パーティ秘匿関数計算の提案とその運用モデルの考察
- 企業名の検索方式の高度化
- ネットワーク上の電話帳システム
- 職業名の自動分割法
- インターネット利用の不安をめぐる10カ国比較調査
- Personal Data Mining Systemを用いた情報検索の提案 : パーソナルデータサーチの概念検索とパーソナライズ(DE: コンテンツ技術, データ工学とメディア理解との融合)
- Personal Data Mining Systemを用いた情報検索の提案 : パーソナルデータサーチの概念検索とパーソナライズ(DE: コンテンツ技術, データ工学とメディア理解との融合)
- 情報セキュリティ対策におけるコミュニケーションツールの活用に関する一考察
- 情報セキュリティ対策におけるコミュニケーションツールの活用に関する一考察
- 情報セキュリティ対策におけるコミュニケーションツールの活用に関する一考察
- 企業における情報セキュリティ基準と対策の関係に関する一考察
- 秘匿回路計算の高効率化と機密情報の安全な活用について
- 統計的開示制御を考慮したセキュアマッチングプロトコル
- 統計的開示制御を考慮したセキュアマッチングプロトコル
- 人名のかな表記のゆれに基づく近似文字列照合法
- エラー検出可能な軽量3パーティ秘匿関数計算の提案と実装評価
- 集合匿名化クラウドの課題と対策(サービス管理,運用管理技術,セキュリティ管理,及び一般)
- インターネットにおける不安からみた安心の模索(セキュリティ関係,一般)
- インターネットにおける不安からみた安心の模索(セキュリティ関係,一般)
- インターネットにおける不安からみた安心の模索(セキュリティ関係,一般)
- インターネットにおける不安からみた安心の模索(セキュリティ関係,一般)
- Twitter利用を中心とする震災時の情報行動と通信不安 : 関東Twitter利用者ウェブ調査
- 東日本大震災における首都圏住民の震災時の情報行動
- 被災地住民の震災時情報行動と通信不安 : 仙台・盛岡訪問留置調査
- 秘匿関数計算システムによる医療データのプライバシ保護統計分析(セキュリティ,ライフログ活用技術,オフィスインフォメーションシステム,ライフインテリジェンス,一般)
- インターネット利用の不安に関する日米比較 : 在日外国人へのグループインタビュー調査(調査・報告,グループウェアとネットワーク,ライフログ活用技術,オフィス情報システム,セキュリティ心理学とトラスト,一般)
- インターネット上の有害情報に対する利用者意識の国際比較調査と考察
- ログ情報活用におけるプライバシー保護技術の考察(ログの活用)
- 集合匿名化クラウドの課題と対策(プライバシー保護,ビッグデータ時代を支えるセキュリティ・プライバシー保護技術論文)
- 加法準同型ElGamal暗号を用いたビット分解プロトコル
- 情報セキュリティの失敗事例における原因の類型化とその対策に関する考察
- 画像共有サイトにおける不安調査結果に対する一考察(人とセキュリティ,ライフログ活用技術,オフィス情報システム,グループウェアとネットワークサービス,セキュリティ心理学とトラスト,ほか関連テーマ)