コーパスからの付属語的表現の自動抽出
スポンサーリンク
概要
- 論文の詳細を見る
In this paper, we describe a method to automatically extract Japanese auxiliary phrases from a corpus. The auxiliary phrase is a kind of idiomatic expression corresponding to auxiliary verb or postpositional particle. Typical examples are "にかんして" and "なければならない". Generally it is advantageous to handle the auxiliary phrase as one word. Therefore, building a dictionary, we need bring together auxiliary phrases like standard words. However, it is difficult to pick up auxiliary phrases. Because it is unclear to distinguish them from normal phrases. Thoroughly investigating the difference, it is defined by subjectivity of system developer. Therefore, it needs vast time to select auxiliary phrases, and there must be considerable doubt that phrases collected comprise all necessary phrases, and have uniformity. To overcome this problem, we present this method. The point of our method is to utilize the following heuristics that a auxiliary phrase has : (H1) The auxiliary phrase is consist of HIRAGANA characters. Even if KANJI character is found in it, its length is 1. (H2) Characters in front and behind of the auxiliary phrase are a certain confined characters. (H3) Each word composed the auxiliary phrase are strongly connected. Firstly, we pick up all phrases whose length is N from the corpus, however, the phrase is consist of HIRAGANA characters and KANJI characters whose length are 1. For all N(≥4), we carry out above operation. In view of (H1), all auxiliary phrases must exist in the set of phrases acquired by these operations. Then, using (H2) and (H3), we remove not auxiliary phrases from this set. Last, we remove duplicate phrases by investigating whether there is a longer phrase included the phrase. As the result, we can acquire phrases to aim in this paper. This method has a merit to easily carry out under poor environment. We made experiment on this method with ASAHI newspaper articles for one month (about 9 Mbyte). We report this result, too.
- 社団法人人工知能学会の論文
- 1995-05-01
著者
-
井佐原 均
電子技術総合研究所
-
新納 浩幸
茨城大学工学部情報工学科
-
井佐原 均
郵政省通信総合研究所関西先端研究センター知的機能研究室
-
井佐原 均
電子技術総合研究所知能情報部自然言語研究室
-
新納 浩幸
茨城大学工学部
関連論文
- EMアルゴリズムの最適ループ回数の予測を用いた語義判別規則の教師なし学習(自然言語)
- 格情報を制約条件とした動詞階層化の試み
- 語音弁別の神経機構 : 失語症患者の研究から得られたもの
- 失語症例の音の分離能力(クリック音融合閾)と聴覚的言語理解の関係について
- 開発者の視点からの機械翻訳システムの技術的評価 : テストセットを用いた晶質評価法
- 潜在的文脈関連度を用いた検索質問拡張
- 名詞句「AのB」「AB」の用例を利用した換喩解析
- 文脈情報変換型機械翻訳システムCONTRAST : 解析・生成・知識表現
- 英語テキスト構造と冠詞現象
- テキストにおける首尾一貫性(coherence)と文脈表現構造
- 機械翻訳システムCONTRASTにおける文脈情報の利用
- SOMを用いた日本語意味マップの自己組織化
- 日本語連体修飾要素の多義解消に関する語彙意味論的検討
- 意味ソートmsort : 意味的並べかえ手法による辞書の構築例とタグつきコーパスの作成例と情報提示システム例
- 文脈と対象世界モデルを利用した機械翻訳へ向けて (「機械翻訳」)
- 助詞「から」の意味分類と判定法
- 最大エントロピーモデルに基づく形態素解析 : 未知語の問題の解決策
- 最大エントロピー法に基づくモデルを用いた日本語係り受け解析
- 文末から解析する統計的係り受け解析アルゴリズム
- MEによる日本語係り受け解析
- 話し言葉の接続詞「で」の特徴(自然言語)
- テキストコーパスの作成 : RWC, JEIDA, Orchid
- 科学技術振興調整費開放的融合研究推進制度 : (小特集:) : 大規模コーパスに基づく『話し言葉工学』の構築
- 語義の特異性を利用した慣用表現の自動抽出
- 片方向の共起性による述語型定型表現の自動抽出
- コーパスからの付属語的表現の自動抽出
- 疑似Nグラムを用いた助詞的定型表現の自動抽出
- コーパスからの関係表現の自動抽出
- JEIDA機械翻訳システム評価基準(品質評価編) : 英日翻訳の品質評価項目の検討と評価用コーパスの作成
- 機械翻訳システム CONTRAST における概念表現
- Computerized Analysis of Syntactic and Semantic Information in Japanese Newspaper Articles
- 比較構造の概念表現について
- 文脈情報翻駅システムCONTRAST (自然言語理解)
- 未定義語を含む文の多段階構文解析
- Qualitative and Quantitative Characteristics of Japanese Sentences
- A Natural Language Processing System with a Large Vocabulary in Secondary Storage
- 日本語新聞記事解析における構文情報および意味情報の抽出法
- 二次記憶上の大規模語彙を用いる自然言語処理システム
- 文脈処理技術 (計算言語学)
- 品詞の並びに関するヒューリスティックスを用いた日本語同語反復表現の検出
- IREX :情報検索、情報抽出コンテスト
- 動詞共起情報を含む名詞辞書の獲得と利用
- 漸進的自然言語理解と概念階層
- 文末表現に着目した自由回答アンケートの分類
- 位置情報と分野情報を用いた情報検索
- 最大エントロピーモデルと書き換え規則に基づく固有表現抽出
- 知的ニュースリーダが対象とする対話型ネットニュースの特徴
- 知的ニュースリーダにおける表層的話題関連性の抽出
- 日本語翻訳タスクへの帰納論理プログラミングの適用
- 重要文と要約の差異に基づく要約手法の調査
- NMFによる重み付きハイパーグラフを用いたアンサンブル文書クラスタリング
- Webサイトの階層的なWebディレクトリへの自動分類手法
- 半教師有りクラスタリングを用いた語義数の推定と語義別用例の収集
- Webサイトの階層的なWebディレクトリへの自動分類手法(QA・Web検索)
- 自動要約のための文重要度の比較
- 文脈理解のための拡張シソーラス知識表現法
- NMFとリンクベースの修正法によるピンポン型文書クラスタリング(一般セッション「分類と抽出」)
- NMFとリンクベースの修正法によるピンポン型文書クラスタリング(一般セッション「分類と抽出」)
- 待遇表現の丁寧さの計算モデル
- 情報ハイウェイ時代のテキスト情報への知的アクセス ( 情報処理最前線)
- NLP2000-23 / NC2000-17 モジュール型ニューラルネットによる品詞の曖昧性解消
- NLP2000-23 / NC2000-17 モジュール型ニューラルネットによる品詞の曖昧性解消
- EMアルゴリズムの最適ループ回数の予測を用いた語義判別規則の教師なし学習
- 半教師有りクラスタリングを用いた語義数の推定と語義別用例の収集(語彙2)
- 文書分類を用いたスパムメール判定手法(フィルタリング、文書分類)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- 文書分類を用いたスパムメール判定手法(フィルタリング、文書分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- Webページ内の目的部分の自動抽出(情報抽出・翻訳知識獲得)
- 多項分布と一様分布の混合分布による語義の事前分布の推定(多義性解消)
- 多項分布と一様分布の混合分布による語義の事前分布の推定(多義性解消)(言語理解とコミュニケーション)
- 多項分布と一様分布の混合分布による語義の事前分布の推定
- SVDPACKC とその語義判別問題への利用
- 単語クラスタリングの語義判別問題への応用
- 情報検索手法を利用した語義判別問題の高速解法
- コーパスを利用した分類語彙表の未登録語義の発見
- コーパスを利用した分類語彙表の未登録語義の発見
- EM アルゴリズムを用いた教師なし学習の日本語翻訳タスクへの適用
- SENSEVAL2日本語翻訳タスクに向けて作成した語義判別規則学習システムIbaraki
- 日本語形態素解析の分類問題への変換とその解法
- 素性間の共起性を検査するCo-trainingによる語義判別規則の学習
- 素性間の共起性を検査するCo-trainingによる語義判別規則の学習
- 決定リストを弱学習器としたアダブーストによる日本語単語分割
- 日本語単語分割へのタグなしコーパスとタグ付きコーパスの利用
- 表記情報をデフォルトの証拠として用いた決定リストによる同音異義語の誤り検出
- 日本語形態素解析のクラス分類問題への変換とその解法
- 文字列が単語になる確率を用いた未知語抽出
- 平仮名N-gramによる平仮名列の誤り検出とその修正 (新しいシステムソフトウェア)
- 複合語からの証拠に重みをつけた決定リストによる同音異義語判別
- 誤りやすい同音異義語の収集
- 誤りやすい同音異義語の収集
- 複合語判定を優先させた決定リストによる同音異義語判定
- コーパスとシソーラスを利用した名詞間距離の設定
- 2連続平仮名文字列を2次情報とした文検索
- 外れ値検出手法を利用した新語義の検出