統計的手法による漢字複合語の自動分割
スポンサーリンク
概要
- 論文の詳細を見る
日本語処理における複合語の分割は,機械翻訳,自助インデクシング,文書校正,音声合成等で必要とされる基本的技術であるが,従来より困難な問題であることが指摘されてきた.これは複合語の分割が必ずしも一意でないためであり,最長一致法等の手法による自動分割では十分な分割精度を得ることができなかった.本報告では,漢字複合語をマルコフモデルという確率的情報発生源からの出力であると考え,統計的推定による手法を用いた短単位分割法を提案し,その処理手順と実験結果について述べる.現行の実験システムでは漢字のみからなる一般語しか扱っていないが,本手法の特徴には以下のものがある.1)適用分野で用いられる十分多くの漢字複合語をもとに,正しい短単位が機械的な計算により学習できる.2)複合語の分割に曖昧さがあるときに,股も確からしい分割パターンが求められる.3)基本語の出現頻度順のリストや分布といった計量的データの収集が可能となる.本システムは,JICSTより発行されている科学技術論文の抄録データに対して約95%の平均分割精度を達成している.また,あらかじめ用意された辞書の正書項目を利用したり,頻出語の正しい分割パターンを与えるといった各種の改良のもとで約97%の分割精度を得た.今後の課題には,未知語の扱いや,一般的な漢字複合語以外の分割への拡張があげられる.
- 一般社団法人情報処理学会の論文
- 1987-09-15
著者
-
藤崎 哲之助
日本アイ・ビー・エム(株)東京サイエンティフィック・センター
-
武田 浩一
日本アイ・ビー・エム(株)東京基礎研究所
-
藤崎 哲之助
日本アイ・ピー・エム(株)東京基礎研究所
-
武田 浩一
日本アイ・ビー・エム(株) 東京基礎研究所
関連論文
- テキストマイニング・類似文書検索システムによるEBMに基づく診療ガイドライン作成支援の有効性
- データベース照会システム「ヤチマタ」と名詞句データ模型
- 大規模生物医学文献データベースのテキストマイニング・ツール (テキストマイニング(Part2))
- ライフサイエンス向けテキストマイニングツールMedTAKMI(テキストマイニングの応用(2))
- ライフサイエンス分野におけるテキストマイニング技術適用の動向(テキストマイニングの応用(2))
- 文献データベースからの生医学インフォマティクス (創薬ゲノミクス・創薬プロテオミクス・創薬インフォマティクス) -- (創薬インフォマティクス)
- XMLがもたらす創造的ネットワーク : 動的な情報源と分散エージェント (「創造的ネットワーク化情報環境に向けて」)
- テキスト分析のためのOLAPシステム(情報融合)
- UIMA : 非構造情報処理アーキテクチャ(研究のツールボックス 第6回)
- パターンベース翻訳システムPalmTreeの文脈処理
- SLP・NL合同セッション「ここまでできるぞ音声/言語処理技術」 : 言語編 : 6 パターンベース英日翻訳システムPalmTree
- パターンベース翻訳システム : PalmTree
- 日本語文書校正支援システムの設計と評価
- 統計的手法による漢字複合語の自動分割
- 日本語文書校正支援システムCRITACのテキスト・コンパイラ
- 構造化文書上における校正・推こう手法の検討
- マイニング技術を活用した定量的な診療プロセス分析への挑戦
- 企業における集合知の活用事例「InnovationJam」--全世界のIBM社員、家族、そしてお客様が一体となったオンライン・ディスカッション (特集 Web2.0による企業イノベーション)
- 4.ビジネス・インテリジェンスと人工知能技術(人工知能技術と産業応用)
- S1-6 e-メールのテキストマイニング(特別セッション(S1) : テキストマイニング)(第30回日本行動計量学会大会発表一覧)
- e-メールのテキストマイニング(テキストマイニング)
- サイト・アウトライニング : インターネットからの情報収集と可視化技術
- 海外におけるナレッジマネジメントの実践(「ナレッジマネジメントとその支援技術」)
- テキストマイニングのための情報抽出
- テキストマイニングのための情報抽出
- テキスト情報の可視化を利用した情報検索(「ビジュアルな情報検索」編集にあたって)
- 特集「ビジュアルな情報検索」編集にあたって
- 大量のテキストからの知識マイニング
- 4N-5 知識管理のためのテキストマイニング
- 漢字複合語の確率的構造解析
- テキストマイニング--非構造データからの知見抽出技術
- 知識ベースを利用した機械翻訳システムShalt2 ( 自然言語処理の実動システム)
- 英日機械翻訳システムShalt2の日本語生成文法
- 英日機械翻訳システムShalt2における並列句の取り扱い
- 特集「ディジタル図書館」の編集にあたって
- 日本語によるデータベース照会(日本語情報処理)
- 計算機の日本語理解--デ-タベ-ス照会システム「ヤチマタ」
- インターネットでの情報の記述と交換方式の最近の動向(「XML:インターネット上での情報の記述と交換」)
- Watson--クイズ番組に挑戦する質問応答システム
- JSIAIワークステーション(1) : 設計方針と概要
- 「ことだま」文書処理システムの文節わかち書き仮名漢字変換
- 異種データに対する統合的情報検索
- 2012年度喜安記念業績賞紹介:知識の蓄積による問題解決に向けた新たな試み