疑似Nグラムを用いた助詞的定型表現の自動抽出
スポンサーリンク
概要
- 論文の詳細を見る
本論文では簡易な字面処理によって,助詞に相当する定型表現(助詞的定型表現)をコーパスから自動抽出する手法について述べる.ここで抽出する表現は,例えば「に関して」や「に基づく」のように,助詞的な働きをする定型的な表現である.これらの定型表現は処理上,一単語として扱うのが妥当であり,予め収集しておく必要がある.定型表現を自動抽出する従来の手法の多くは対象言語が英語である.しかし日本語の場合,英語と異なり,単語間の共起の強さを計るには,基本的に文を単語に分割するための形態素解析が必要である.しかも形態素解析には,曖昧性,未知語などの問題がついてまわり,単語間の共起の強さを計るのは英語ほど容易ではない.完全な字面処理からのアプローチとしては,「ある文字列が1つのユニットになっていればその文字列の前後には様々な種類の文字が現れる」というアイデアをもとに,大規模コーパスから得られたNグラムによって定型表現を取り出す手法がある.本手法は基本的にこの考え方を利用する.ただし,助詞的定型表現の持ついくつかのヒューリスティックスと句読点の情報を活用し,完全なNグラムを作ることを避け,そのサブセットである疑似Nグラムと呼ぶある種の文字列の頻度情報だけを利用する.結果として,簡易な字面処理だけによって,定型表現の抽出が可能となっている.このため,本手法は,実験の拡大,再現が容易であるという利点も持つ.
- 一般社団法人情報処理学会の論文
- 1995-01-15
著者
-
井佐原 均
電子技術総合研究所
-
新納 浩幸
茨城大学工学部情報工学科
-
井佐原 均
郵政省通信総合研究所関西先端研究センター知的機能研究室
-
井佐原 均
独立行政法人通信総合研究所
-
井佐原 均
郵政省通信総合研究所
-
新納 浩幸
茨城大学工学部
関連論文
- 音声言語関連大型プロジェクトの現状と将来
- EMアルゴリズムの最適ループ回数の予測を用いた語義判別規則の教師なし学習(自然言語)
- 格情報を制約条件とした動詞階層化の試み
- 語音弁別の神経機構 : 失語症患者の研究から得られたもの
- 失語症例の音の分離能力(クリック音融合閾)と聴覚的言語理解の関係について
- 開発者の視点からの機械翻訳システムの技術的評価 : テストセットを用いた晶質評価法
- 潜在的文脈関連度を用いた検索質問拡張
- 名詞句「AのB」「AB」の用例を利用した換喩解析
- 文脈情報変換型機械翻訳システムCONTRAST : 解析・生成・知識表現
- 英語テキスト構造と冠詞現象
- テキストにおける首尾一貫性(coherence)と文脈表現構造
- 実験的な知識に基づく文脈表現構造からの英語テキスト生成
- 機械翻訳システムCONTRASTにおける文脈情報の利用
- SOMを用いた日本語意味マップの自己組織化
- 日本語連体修飾要素の多義解消に関する語彙意味論的検討
- 意味ソートmsort : 意味的並べかえ手法による辞書の構築例とタグつきコーパスの作成例と情報提示システム例
- 文脈と対象世界モデルを利用した機械翻訳へ向けて (「機械翻訳」)
- 格助詞と格解釈 : 「で」の議論を中心に
- 助詞「から」の意味分類と判定法
- N進木拡張LINGOLのユ-ティリティ関数について
- 最大エントロピーモデルに基づく形態素解析 : 未知語の問題の解決策
- 最大エントロピー法に基づくモデルを用いた日本語係り受け解析
- 文末から解析する統計的係り受け解析アルゴリズム
- MEによる日本語係り受け解析
- 話し言葉の接続詞「で」の特徴(自然言語)
- 演奏の表情を表す言葉が演奏に与える影響について (ことば工学研究会(第8回)テーマ:ことばの感性ははかれるか?どのように表現出来るか?)
- 表層表現に着目した自由回答アンケートの意図に基づく自動分類
- テキストコーパスの作成 : RWC, JEIDA, Orchid
- 科学技術振興調整費開放的融合研究推進制度 : (小特集:) : 大規模コーパスに基づく『話し言葉工学』の構築
- 科学技術振興調整費開放的融合研究推進制度による「話し言葉の言語的・パラ言語的構造の解明に基づく『話し言葉工学』の構築」プロジェクト
- 語義の特異性を利用した慣用表現の自動抽出
- 片方向の共起性による述語型定型表現の自動抽出
- コーパスからの付属語的表現の自動抽出
- 疑似Nグラムを用いた助詞的定型表現の自動抽出
- コーパスからの関係表現の自動抽出
- JEIDA機械翻訳システム評価基準(品質評価編) : 英日翻訳の品質評価項目の検討と評価用コーパスの作成
- 機械翻訳システム CONTRAST における概念表現
- Computerized Analysis of Syntactic and Semantic Information in Japanese Newspaper Articles
- 比較構造の概念表現について
- 文脈情報翻駅システムCONTRAST (自然言語理解)
- 未定義語を含む文の多段階構文解析
- Qualitative and Quantitative Characteristics of Japanese Sentences
- A Natural Language Processing System with a Large Vocabulary in Secondary Storage
- 日本語新聞記事解析における構文情報および意味情報の抽出法
- 二次記憶上の大規模語彙を用いる自然言語処理システム
- 文脈処理技術 (計算言語学)
- 品詞の並びに関するヒューリスティックスを用いた日本語同語反復表現の検出
- IREX :情報検索、情報抽出コンテスト
- 動詞共起情報を含む名詞辞書の獲得と利用
- 漸進的自然言語理解と概念階層
- 文末表現に着目した自由回答アンケートの分類
- 位置情報と分野情報を用いた情報検索
- 最大エントロピーモデルと書き換え規則に基づく固有表現抽出
- 知的ニュースリーダが対象とする対話型ネットニュースの特徴
- 知的ニュースリーダにおける表層的話題関連性の抽出
- 日本語翻訳タスクへの帰納論理プログラミングの適用
- 重要文と要約の差異に基づく要約手法の調査
- NMFによる重み付きハイパーグラフを用いたアンサンブル文書クラスタリング
- Webサイトの階層的なWebディレクトリへの自動分類手法
- 半教師有りクラスタリングを用いた語義数の推定と語義別用例の収集
- Webサイトの階層的なWebディレクトリへの自動分類手法(QA・Web検索)
- 自動要約のための文重要度の比較
- 文脈理解のための拡張シソーラス知識表現法
- NMFとリンクベースの修正法によるピンポン型文書クラスタリング(一般セッション「分類と抽出」)
- NMFとリンクベースの修正法によるピンポン型文書クラスタリング(一般セッション「分類と抽出」)
- 待遇表現の丁寧さの計算モデル
- 情報ハイウェイ時代のテキスト情報への知的アクセス ( 情報処理最前線)
- NLP2000-23 / NC2000-17 モジュール型ニューラルネットによる品詞の曖昧性解消
- NLP2000-23 / NC2000-17 モジュール型ニューラルネットによる品詞の曖昧性解消
- EMアルゴリズムの最適ループ回数の予測を用いた語義判別規則の教師なし学習
- 半教師有りクラスタリングを用いた語義数の推定と語義別用例の収集(語彙2)
- 文書分類を用いたスパムメール判定手法(フィルタリング、文書分類)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- 文書分類を用いたスパムメール判定手法(フィルタリング、文書分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- Webページ内の目的部分の自動抽出(情報抽出・翻訳知識獲得)
- 多項分布と一様分布の混合分布による語義の事前分布の推定(多義性解消)
- 多項分布と一様分布の混合分布による語義の事前分布の推定(多義性解消)(言語理解とコミュニケーション)
- 多項分布と一様分布の混合分布による語義の事前分布の推定
- SVDPACKC とその語義判別問題への利用
- 単語クラスタリングの語義判別問題への応用
- 情報検索手法を利用した語義判別問題の高速解法
- コーパスを利用した分類語彙表の未登録語義の発見
- コーパスを利用した分類語彙表の未登録語義の発見
- EM アルゴリズムを用いた教師なし学習の日本語翻訳タスクへの適用
- SENSEVAL2日本語翻訳タスクに向けて作成した語義判別規則学習システムIbaraki
- 日本語形態素解析の分類問題への変換とその解法
- 素性間の共起性を検査するCo-trainingによる語義判別規則の学習
- 素性間の共起性を検査するCo-trainingによる語義判別規則の学習
- 決定リストを弱学習器としたアダブーストによる日本語単語分割
- 日本語単語分割へのタグなしコーパスとタグ付きコーパスの利用
- 表記情報をデフォルトの証拠として用いた決定リストによる同音異義語の誤り検出
- 日本語形態素解析のクラス分類問題への変換とその解法
- 文字列が単語になる確率を用いた未知語抽出
- 平仮名N-gramによる平仮名列の誤り検出とその修正 (新しいシステムソフトウェア)
- 複合語からの証拠に重みをつけた決定リストによる同音異義語判別
- 誤りやすい同音異義語の収集
- 誤りやすい同音異義語の収集
- 複合語判定を優先させた決定リストによる同音異義語判定
- コーパスとシソーラスを利用した名詞間距離の設定
- 2連続平仮名文字列を2次情報とした文検索
- 外れ値検出手法を利用した新語義の検出