人名辞書から名前読み付与規則を抽出するアルゴリズム
スポンサーリンク
概要
- 論文の詳細を見る
日本人は外国語のカタカナ表記を知っていても,その綴りを知らないことが多い.そこで,アルファベット表記とカタカナ表記が対応する規則があると便利である.一方,外国人名のアルファベット表記とカタカナ表記が対応したデータベース(人名辞書)が存在し,これは利用可能である.本稿では,人名辞書におけるアルファベット表記の部分文字列とカタカナ表記の部分文字列の組の出現頻度の変化から,アルファベット表記とカタカナ表記の対応規則を自動的に得るアルゴリズムを提案する.本アルゴリズムは,ローマ字綴りからなる仮想の対応規則を組み合わせたデータ集合から,規則を完全に再現することができる.人名辞書にアルゴリズムを適用して得られた対応規則をデータ検索システムで使われることを想定して評価した結果,正当率は80%,綴りの復元率は84%,読みの復元率は48.8%の精度を得た.また,人手によって規則を作る方法と比較した結果,本手法は人の知識を使用しない方法にもかかわらず人間の生成する規則を含む規則を得ることができた.
- 一般社団法人情報処理学会の論文
- 1999-07-15
著者
関連論文
- 4V-6 SYNパケットの呼応に着目したP2P トラフィックの表示(P2P,学生セッション,ネットワーク)
- 文字コードに依存しない情報検索の実現
- n-gram解析を用いた画像中のパターン抽出
- ISLisp処理系の開発と複合他システムインタフェースについて
- ISO規格ISLISP処理系におけるオブジェクトシステムの実装について
- ISO規格ISLISP処理系の実装方式
- ISO規格ISLISP処理系の開発
- データ並列言語におけるベクトルプロセッサ向きコード生成
- ISLisp(Lisp言語のISO標準化案)とその動向
- 3ZD-4 人間の動作に対するアノマリ型異常検知システムの実装(センシング・複雑系・その他,学生セッション,人工知能と認知科学)
- 3ZD-3 Compression-based Dissimilarity Measure(CDM)を用いた人感センサ情報の類似判定(センシング・複雑系・その他,学生セッション,人工知能と認知科学)
- 3ZD-2 情報量の最大化に基づく指向性センサの方向制御(センシング・複雑系・その他,学生セッション,人工知能と認知科学)
- 3ZD-1 仮想ユビキタスセンサにおける測定値補完システムのプロトタイプ構築(センシング・複雑系・その他,学生セッション,人工知能と認知科学)
- DS-2-5 Compression-based Dissimilarity Measure(CDM)を用いた人態センサ情報の類似判定(DS-2. 安全安心とセンシングネットワーク,シンポジウムセッション)
- 効果的なデータ拡散に向けたオーバレイトポロジの比較(シンクライアントとネットワーク)
- 固有表現自動獲得に向けての固有表現とコンテキストの関連度(語彙知識)
- スナップショットを用いたデバッグ環境の構築(セッション8:仮想化技術(2))
- 相関障害への耐性の高い広域分散データ配置の検討(セッション5:ストレージ)
- 文字列をk回以上含む文書数の計数アルゴリズム
- 二語の共通周辺文字列の長さに着目した語文脈類似判定(マイニング・知識獲得・固有表現)
- M-55 シームレスネットワークにおけるマルチキャスト通信の実現(情報共有システム(1),M.ネットワーク・モバイルコンピューティング)
- DS-2-8 自律型省電力サンプリングのアプリケーション評価(DS-2.安全安心,センシングネットワークとAI,シンポジウムセッション)
- DS-2-2 インターユビキタスネットワーク情報基盤のための人間行動マイニング(DS-2. 安全安心とセンシングネットワーク,シンポジウムセッション)
- 4R-2 操作画面を対象とする検索システムの構築(マルチメディアデータ検索,学生セッション,データベースとメディア,情報処理学会創立50周年記念)
- コーパス中の一対多関係を推定する問題における類似尺度
- 辞書を用いない関連語リストの構築方法
- 2000-FI-59-2 / 2000-DD-24-2 情報検索性能と表記の揺れへの寛容性を持つ類似度
- 2000-FI-59-2 / 2000-DD-24-2 情報検索性能と表記の揺れへの寛容性を持つ類似度
- 2000-NL-138-9 ダイナミックプログラミングでの検索方法
- NLC2000-18 ダイナミックプログラミングでの検索方法
- 1T-09 補完類似度による地名情報の抽出
- 1T-9 補完類似度による地名情報の抽出
- 有用度を用いた論理導出による知識発見
- 文字コードに依存しない情報検索の実現
- 人名辞書から名前読み付与規則を抽出するアルゴリズム
- 人名辞書から名前読み付与規則を抽出する試み
- 人名辞書から名前読み付与規則を抽出する試み
- 固有名詞に着目し記事群を整理分類し提供するシステム
- 固有名詞に着目し記事群を整理分類し提供するシステム
- DS-2-3 多チャンネルデータ集録環境を用いた仮想ユビキタスセンサの実装(DS-2.安全安心,センシングネットワークとAI,シンポジウムセッション)
- テンプレートを構成する名詞のKatzモデルによる抽出の試み
- テンプレートを構成する名詞のKatzモデルによる抽出の試み(用語・情報抽出)
- 2ZC-1 双方向通信に着目した暗号化P2Pトラヒックの解析手法の検討(P2P,学生セッション,ネットワーク,情報処理学会創立50周年記念)
- 拡張固有表現獲得の精度向上
- 拡張固有表現獲得の精度向上(語彙2)
- DS-2-2 多チャンネル焦電型センサ出力における圧縮プログラムを用いた類似判定に関する研究(DS-2.安全安心,センシングネットワークとAI,シンポジウムセッション)
- DS-2-4 情報量の最大化に基づく指向性センサの方向制御(DS-2.安全安心,センシングネットワークとAI,シンポジウムセッション)
- 語の文脈の一致判定における文脈の出現頻度と種類数の比較
- 固有表現自動獲得に向けての固有表現とコンテキストの関連度(語彙知識)
- 文字列を特徴量とし反復度を用いたテキスト分類
- 途中報告を行う分散システムフレームワークのアプリケーション
- 途中報告を行う分散システムフレームワークのアプリケーション
- 途中報告を行う分散システムフレームワークのアプリケーション
- 繁説エージェントからの途中報告の処理
- 繁説エージェントからの途中報告の処理
- 繁説エージェントによる分散システムフレームワークと情報検索システムの構築
- 繁説エージェントによる分散システムフレームワークと情報検索システムの構築
- 5S-5 Verbose-Agentによる情報検索の考察
- トランスレータ方式のエージェント言語の実装
- トランスレータ方式のエージェント言語の実装
- 情報検索のための表記の揺れに寛容な類似尺度
- 野球チーム名における固有名詞の反復出現について(語と慣用句)
- グルー検出を元にした辞書を用いない英文エラーの検出(語の統計量とその応用)
- グルー検出を元にした辞書を用いない英文エラーの検出
- DTD作成ツールDSD(Document Structure Detector)の実装
- データ並列言語におけるベクトルプロセッサ向きコード生成
- n-gram解析手法を応用したプログラム中の欠損の検出
- n-gram解析を用いたプログラム中の非定型パターン・欠損の検出
- 文書拡張によるキーワード抽出
- 文書拡張によるキーワード抽出(一般セッション, ロボットとの相互作用のための言語処理・パターン認識・メディア理解)
- 文書拡張によるキーワード抽出(一般セッション, ロボットとの相互作用のための言語処理・パターン認識・メディア理解)
- キーワード抽出を実現する文書頻度分析
- 第三言語を介した対訳辞書の作成(並列処理)
- 文字列を特徴量とし反復度を用いたテキスト分類
- 文字列を特徴量とし反復度を用いたテキスト分類(文書分類・翻訳)
- 個人文書アーカイブを用いた文書有用性判定タスクとそのための類似判定
- 文書頻度計数の線形時間アルゴリズムの実装と評価(Text mining)
- 分散協調システムによるトラフィック測定システムの開発
- 分散協調システムによるトラフィック測定システムの開発(ネットワーク)
- 手間の少ない講義録画を目的とした4チャンネル高解像度同時録画設備(ポスターセッション)
- Bigramの反復度を用いた技術用語抽出(セッション2 : ドキュメント管理・流通基盤技術)
- 相関係数を用いた実証的重みの分析と検索質問拡張
- ファイルI/Oと後戻りを両立させたデバッガの作成(資源管理とデバッギングツール)
- 情報検索システムを利用した日英対訳語推定
- WWWでの辞書引き方法の比較検討
- 人名のかな表記のゆれに基づく近似文字列照合法
- 情報検索における検索語の選別の効果
- 5R-10 文字コード独立の多言語テキストeditorの実装
- 補完類似度を用いた固有名詞のグルーピングの試み
- 補完類似度を用いた固有名詞のグルーピングの試み
- ネットワークサーバ向けのLispシステムの実現
- ネットワークサーバ向けのLispシステムの実現
- 有界長文字列の word 問題について
- 人と人を繋げるもの(言語)の影響力を再認識するできごと
- トランスレータを利用した機種非依存な実行移送方式 (新しいシステムソフトウェア)
- トランスレータ方式のエージェントの実装
- 大学研究者から見たテストコレクションと評価ワークショップ(情報検索システムの力くらべ : テストコレクションによる評価)(情報検索研究者にとってのテストコレクションと評価ワークショップ)