大規模日本語コーパスからの連鎖型および離散型の共起表現の自動抽出法
スポンサーリンク
概要
- 論文の詳細を見る
機械翻訳等の自然言語処理に必要な,使用頻度の高い表現や固定的な言い回しなどの表現を抽出するため,大量の言語データを対象に,連鎖型および離散型の共起表現を効率よく自動的に抽出するアルゴリズムを提案した.連鎖型共起表現の抽出では,最近提案されたn-gram統計の方法が使用できるが,膨大な量の断片的な文字列が抽出されるため,その絞り込みが問題であった.また,離散型共起表現の抽出では,適切な方法がなかった.そこで,本論文では,まず,連鎖型共起表現に対して,断片的な文字列の抽出を大幅に抑制しながら,任意の長さ以上で,任意の出現回数以上の文字列を抽出するアルゴリズムを提案した.次に,これによって得られた連鎖型の共起表現を組み合わせて,離散型の共起表現を自動的に漏れなく抽出する方法を提案した.3カ月分の新聞記事データ (892万字) を対象とした実験の例によれば,連鎖型共起表現の場合,文字列長2文字以上,出現頻度2回以上で抽出される表現の種類は,n-gramの方法では,440万種類 (延べ出現回数3,120万回) であったのに対して,本論文の方法では,97万種類 (延べ出現回数260万回) となり断片的な表現は大幅に減少した.また,新たに提案した離散型共起表現抽出方式では,連鎖型共起の抽出で得られた文字列のうち,10回以上出現した文字列 (12,350種類) の任意の2種類が,1文中に2回以上共起した表現の組は,6,500種類 (延べ出現回数21,800回) であることなど,容易に求めることができた.
- 一般社団法人情報処理学会の論文
- 1995-11-15
著者
関連論文
- 概念の揺らぎを考慮した概念間の関連度計算方式
- 概念の揺らぎを考慮した概念間の関連度計算方式(語彙2)
- 概念ベースと関連度計算を用いた記事関連度計算方式
- 未定義語の自動意味付与方式(意味・知識獲得)
- 概念ベースとEarth Mover's Distanceを用いた文書検索(社会システムと知能)
- Web上の大容量知識を用いた教養知識の自動学習方式(意味・知識獲得)
- E-001 電子化国語辞書の知識に基づく自然言語質問文応答方式(E分野:自然言語・音声・音楽)
- 歴史に関する常識判断システムの構築 : 歴史知識の自動学習方式(一般,コミュニケーションとAI及び一般)
- 常識判断システムを用いた会話意味理解方式 : 会話文からの場所推定
- 単語解答を求める複雑な質問文を対象とした知的Web検索方式(社会システムと知能)
- 常識判断を用いた文書分類・文書要約のための情報整理手法の提案(「主観表現処理の最前線」シンポジウム)
- 概念ベースと関連度計算を用いた新聞記事の分類(意味(言語モデル・文書分類))
- E-39 概念ベースを用いた連想機能実現のための関連度計算方式(知識獲得,E.自然言語・文書)
- 意味属性と漢字属性を用いた概念間の関連性評価法
- E-063 話者の個性・嗜好情報を考慮したコンピュータ会話処理(自然言語・音声・音楽,一般論文)
- 概念ベースとEarth Mover's Distanceを用いた文書検索(社会システムと知能)
- 1M-6 知的メカニズムのための概念間の類似度定量化方式
- 知的判断メカニズムのための概念間の類似度評価モデル
- 認識結果補正知識ベースを用いた音声理解方式(言語理解とオントロジーシンポジウム)
- 常識的感覚判断システムにおける名詞からの感覚想起手法
- 常識的感覚判断システムの構築
- E-31 概念連想に基づく会話中の算術演算 : 算数教室(自然言語処理応用,E.自然言語・文書)
- SB-12-3 情報通信分野の教育は大丈夫か? : 知識の体系的学習とその応用能力の向上
- 知的コンピュータ
- 多様性を維持し続ける遺伝的アルゴリズム : 多段階GA
- 遺伝的アルゴリズムによる動的障害物回避経路の最適化
- 概念間の関連度計算への遺伝的アルゴリズムの適用
- 人の同調行動に基づく意思決定モデル
- 漢字構成要素の指定による難読漢字の入力方法
- 大規模日本語コーパスからの連鎖型および離散型の共起表現の自動抽出法
- 大規模日本語コーパスからの連鎖型および離散型共起表現の自動抽出法
- ロボット型検索エンジンを用いた未知語の理解支援手法
- ロボット型検索エンジンを用いた未知語の理解支援手法(語彙2)
- 概念間の関連度計算のための大規模概念ベースの構築
- E_033 概念属性の動的評価に基づく概念関連度計算方式(E分野:自然言語)
- 概念の意味属性と共起情報を用いた関連度計算方式
- E-005 概念ベースを用いた複合語の自動的属性取得法(E分野:自然言語)
- 電子化新聞を用いた概念ベースの拡張と属性重み付与方式(概念・連想)
- F-051 関連度を用いた概念ベースの新属性への重み付け手法(F.人工知能)
- 新聞記事等の文書を用いた概念自動学習による概念ベース構築方式
- 概念間の関連度に基づく情報ランク付けを用いた知的検索手法
- E-8 知的情報検索のための概念学習方式(要約・情報検索,E.自然言語・文書)
- 概念間の関連度に基づく情報ランク付けを用いた情報検索手法
- 概念間の関連度に基づく情報ランク付けを用いた情報検索手法
- 概念ベースと Earth Mover's Distance を用いた文書検索
- 動作常識を表現する動作知識ベース構築法(意味・知識獲得)
- Web を用いた未知語検索キーワードのシソーラスノードへの割付け手法
- E-061 常識的量判断システムの構築 : 量に関する相対的評価の拡張(E分野:自然言語・音声・音楽)
- E-065 過去会話の整合性に着目したコンピュータ会話における違和感の抽出(自然言語・音声・音楽,一般論文)
- 語の意味処理に基づく知識文からの回答抽出方式(社会システムと知能)
- 語の意味処理に基づく知識文からの回答抽出方式(社会システムと知能)
- 情報検索における未知語理解支援方式 : 未知語のシソーラスノードへの分類(テキスト検索,分類)
- 関連度計算補正により認識率向上を図った会話文音声理解システム(社会システムと知能)
- USBカメラと測域センサを用いた歩行支援システムの構築(社会システムと知能)
- 関連度計算補正により認識率向上を図った会話文音声理解システム(社会システムと知能)
- USBカメラと測域センサを用いた歩行支援システムの構築(社会システムと知能)
- 単語解答を求める複雑な質問文を対象とした知的Web検索方式(社会システムと知能)
- 単語解答を求める複雑な質問文を対象とした知的Web検索方式 (「社会システムと知能」および一般発表)
- 概念ベースとEarth Mover's Distanceを用いた文書検索 (「社会システムと知能」および一般発表)
- USBカメラと測域センサを用いた歩行支援システムの構築 (「社会システムと知能」および一般発表)
- 関連度計算補正により認識率向上を図った会話文音声理解システム (「社会システムと知能」および一般発表)
- I-005 知能ロボットの自律移動のための実写からの位置・方位・速度の測定(グラフィクス・画像,一般論文)
- 常識知識を用いた算数問題解決システムの構築(セッション8:言語処理と知能)
- 常識知識を用いた算数問題解決システムの構築(セッション8:言葉処理と知能,社会システムと知能)
- E-054 常識を持つコンピュータの実現に向けた常識的道具判断システムの構築(自然言語・音声・音楽,一般論文)
- F-003 関連度における共通閾値の存在と応用(F.人工知能)
- 連想システムのための概念ベース構成法-語間の論理的関係を用いた属性拡張
- 常識的判断システムにおける未知語処理方式
- 連想システムのための概念ベース構成法 : 属性信頼度の考え方に基づく属性重みの決定
- E-40 連想システムのための概念ベース構成法 : 概念属性の精錬と拡張(知識獲得,E.自然言語・文書)
- 概念間規則を用いた概念ベースの自己参照精錬
- 概念ベースにおける概念属性の確からしさによる概念属性の重み決定法
- 国語辞書の意味分類を利用した概念ベースにおける多義概念の分割
- 国語辞書の意味分類を利用した概念ベースにおける多義概念の分割
- 常識判断のための概念スペース構成法 : 国語辞書から抽出した概念間論理関係の利用
- 常識判断のための概念ベース構成法 : 概念間論理関係を用いた概念属性の重み決定法
- 常識判断のための概念ベース構成法 : 概念間論理関係を用いた概念属性の重み決定法
- 関連度評価のためのルールによる概念ベースの自動精錬
- 意味属性と漢字属性を用いた概念間の関連性評価法
- 関連度・出現頻度を利用した概念ベースの精錬手法
- 関連度・出現頻度を利用した概念ベースの精錬手法
- 常識判断のための概念ベース構築法
- 自然言語理解とGAを用いた知的ロボットの行為作成方式(言語理解とオントロジーシンポジウム)
- 複数画像を用いた道路領域俯瞰図と経路地図の作成(文書・文字メディアの認識・理解, 一般)
- 複数画像を用いた道路領域俯瞰図と経路地図の作成(文書・文字メディアの認識・理解, 一般)
- E-069 感情判断に基づくコンピュータ会話応答文生成方式(E分野:自然言語・音声・音楽)
- 概念ベースを用いた関連度計算方式の精度評価
- 概念ベースを用いた関連度計算方式の精度評価
- 概念ベースを用いた関連度計算方式の精度評価
- E-010 話題語評価に基づくWebニュースからの時事情報獲得技術(自然言語・音声・音楽,一般論文)
- E-038 N語連想を用いた単一文の概念化(自然言語・音声・音楽,一般論文)
- 単文の名詞と動詞から時間/季節を判断するメカニズム
- 単文の名詞と動詞から時間/季節を判断するメカニズム
- 3J-9 時間の理解に関する常識的判断メカニズム
- 複数画像を用いた道路領域俯瞰図と経路地図の作成
- 複数画像を用いた道路領域俯瞰図と経路地図の作成
- E-051 算数問題のような数量の論理関係を含む質問文の意味理解と解決(自然言語・音声・音楽,一般論文)
- E-29 常識的感情判断システムにおける動詞の処理(自然言語処理応用,E.自然言語・文書)
- E-28 常識的感情判断システムと主体語処理(自然言語処理応用,E.自然言語・文書)
- 4J-3 知的コミュニケーションのための感覚的判断メカニズム