対訳情報を用いた単語のクラスタリングに関する考察
スポンサーリンク
概要
- 論文の詳細を見る
類似概念を持つ単語に、同じ意味カテゴリ(シソーラスあるいは意味素性)を付与して意味的に分類することは、自然言語処理の分野で一般に行われている。しかし、意味カテゴリを作成することは容易なことではなく、また、たとえ意味カテゴリが作成できたとしても、単語にこれらの意味カテゴリを安定して付与することはほとんど不可能である。そのため、客観的なデータを用いて自動的に単語を分類する手法がいくつか提案されている。これらのいずれの手法でも日本語間の共起関係(例えば、名詞と動詞の係り受け関係)を利用し、なんらかの意味的な近さを表す距離を用いて単語を分類している。しかし、松川らが指摘しているように距離を用いて単語を分類する場合、複数の意味を持つ単語については事前に意味を分類しておく必要がある。そこで、筆者らは当研究室で構築中の言語データベースから抽出した対訳情報(英語)を用いて事前に意味を分類することとした。このことは、日本語では複数の意味を持つ単語でも英語ではそれぞれの意味に応じて訳語が異なり、対訳を用いることで日本語の意味が事前に分離されていると仮定していることになる。本報告では、ドメインを国際会議に限定してその中に出現した係り受けデータと対訳を用いてクラスタリングを行ったのでその結果について考察し、対訳を用いないでクラスタリングを行った場合と比較する。
- 一般社団法人情報処理学会の論文
- 1990-09-04
著者
関連論文
- 情緒計算手法と心的状態遷移ネットワークを用いた音声対話エージェントの気分変化手法
- コミュニケーション効率に基づく音声翻訳システムの評価(異文化コラボレーション論文)
- 多言語音声コミュニケーションプラットホームと音声翻訳への応用(第8回音声言語シンポジウム)
- コミュニケーション効率に基づく課題遂行型音声対話の評価(第8回音声言語シンポジウム)
- 多言語音声コミュニケーションプラットホームと音声翻訳への応用(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)
- コミュニケーション効率に基づく課題遂行型音声対話の評価(Session-3 コミュニケーション・対話,第8回音声言語シンポジウム)
- ATR音声言語翻訳実験システムASURA
- 翻訳知識を用いた英語論文表題の構造解析(解析・抽出)
- 言い換えを用いたテキスト要約の自動評価
- 言い換えを用いたテキストの自動評価
- 言い換えを用いたテキストの自動評価
- 言い換えを用いた技術マニュアルの類似文検索
- 係り受け関係データから見たキーボード会話と電話会話の比較
- 連想型知識ベースの推論方式
- 単語の共起関係を定義した知識ベースの構成
- 言語データベース用単語間の関係データ
- 論文用語の特許用語への自動変換
- 大語彙日本語連続音声認識研究基盤の整備 : 学習・評価テキストコーパスの作成
- 大語彙日本語連続音声認識研究基盤の整備 : 評価用連続音声認識プログラムの開発
- 2種類の翻訳システムを用いた学術論文の特許分類体系への自動分類
- 2種類の翻訳システムを用いた学術論文の特許分類体系への自動分類 (検索の高効率化と精度向上)
- クラスタリング手法と既存のシソーラスとの組合せ手法
- 対訳情報を用いた単語のクラスタリングに関する考察
- 旅行ブログエントリからの観光情報の自動抽出
- 観光情報の自動抽出とその音声翻訳への適用(第1回集合知シンポジウム〜言語処理が紡ぎ出す未来〜)
- 自然言語処理における統合の諸相 (自然言語処理における統合)
- ユーザの知的欲求による選好に基づいたマイクロブログの記事分類
- 誤認識傾向を考慮した音声認識のための構文規則
- 話しことばにおける接続助詞終止とその音声認識への応用
- 日英特許データベースからのシソーラスの自動構築 (機械翻訳技術の向上)
- 特許請求項と詳細説明の自動対応付け (特許情報普及活動功労者表彰 発足記念版) -- (検索の高効率化と精度向上)
- 論文と特許からの技術動向情報の抽出と可視化