日本語単語分割の分野適応のための部分的アノテーションを用いた条件付き確率場の学習
スポンサーリンク
概要
- 論文の詳細を見る
本研究では文の一部にのみ単語分割情報を付与する部分的アノテーションに注目する.重要な部分や作業負荷の少ない部分にのみアノテーションをすることにより,新しい分野に対応するための学習データを効率的に作成できる.この部分的アノテーションを使用して条件付き確率場(CRF)を学習する方法を提案する.CRFは単語分割および自然言語処理の様々な問題でその有効性が示されている手法であるが,その学習には文全体へのアノテーションが必要であった.提案法は周辺尤度を目的関数にすることで部分的アノテーションを用いたCRFのパラメータ推定を可能にした.日本語単語分割器の分野適応実験において部分的アノテーションによって効果的に性能を向上させることが可能であったことを報告する.
- 一般社団法人情報処理学会の論文
- 2009-06-15
著者
-
坪井 祐太
日本アイ・ビー・エム(株)
-
森 信介
京都大学
-
鹿島 久嗣
東京大学
-
松本 裕治
奈良先端科学技術大学院大学
-
鹿島 久嗣
日本アイ・ビー・エム株式会社
-
鹿島 久嗣
日本アイ・ビー・エム(株)東京基礎研究所
-
鹿島 久嗣
日本ibm 東京基礎研究所
-
小田 裕樹
NTTソフトウェア株式会社
-
小田 裕樹
京都大学学術情報メディアセンター
-
鹿島 久嗣
京都大学大学院情報学研究科
-
鹿島 久嗣
東京大学大学院情報理工学系研究科:jstさきがけ「知の創生と情報社会」研究領域
関連論文
- テキスト情報分析のための判断情報アノテーション(自然言語処理,意味解析,情報爆発論文)
- 現場発想による自然言語処理ブレークスルーの探求(平成21年度論文賞の受賞論文紹介)
- 擬似確率的単語分割コーパスによる言語モデルの改良
- ネットワーク構造の確率的な時変モデルに基づく教師ありリンク予測
- Espresso 型ブートストラッピング法における意味ドリフトのグラフ理論に基づく分析 : 語義曖昧性解消における評価
- バイパス付き編集グラフを用いた日本語並列構造解析(学習・系列解析・構文解析)
- グラフを用いたバイオ医療専門用語の類義語獲得(語彙・知識獲得)
- 系列ラベリングのための前向き後ろ向きアルゴリズムの一般化(学習・系列解析・構文解析)
- 被験者判定のゆれと要約モデル(コンテンツ処理)
- 係り受け解析器の部分解析精度評価とその利用(形態素・係り受け解析・感情)
- トーナメントモデルを用いた日本語係り受け解析
- Semi-Markov Conditional Random Fields のための損失関数スムージング
- 動詞項構造辞書への大規模用例付与
- 語彙概念構造に基づく言い換え生成 : 機能動詞構文の言い換えを例題に(自然言語)
- Web文書集合からの意見情報抽出と着眼点に基づく要約生成(Webマイニング)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- Web文書集合からの意見情報抽出と着眼点に基づく要約生成(Webマイニング)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- 自動生成された言い換え文における不適格な動詞格構造の検出(自然言語)
- 自動生成した言い換え文における動詞結合価誤りの自動検出手法(言語知識・解析・言い換え)
- 自動点訳サーバeBrailleを用いた病院内バリアフリー対応の試み(視覚障害,HCGシンポジウム)
- 自動点訳サーバeBrailleの医療文書点訳精度の向上に向けたIPADICの最適化(解析・言語資源)
- 自動点訳サーバ eBraille の開発
- 自動点訳サーバeBrailleの開発
- 異種ネットワーク統合によるタンパク質機能予測
- Particle Filterによる文脈の動的ベイズ推定(意味(言語モデル・文書分類))
- 複数文書から抽出した言明間の意味的関係の整理と関係付与(コーパス)
- 事象間関係知識の整備と類似・対立認識への応用(単語・事象・オントロジー)
- E-053 言論マップ生成のための事象間類似・対立関係の認識(自然言語・音声・音楽,一般論文)
- E-052 テキスト情報の事実性解析(自然言語・音声・音楽,一般論文)
- E-040 含意・矛盾認識のための事象間関係知識の整備(自然言語・音声・音楽,一般論文)
- 言論マップ生成課題 : 言説間の類似・対立の構造を捉えるために(情報分析・要約(テーマセッション1))
- Markov Logicを利用した時間的順序関係の同時推論
- 部分的かつ曖昧なラベル付き構造データからのマルコフ条件付確率場の学習(情報抽出・ラベル付与)
- 最大エントロピー法による単語境界確率の推定
- 文字クラスモデルによる日本語単語分割
- 文字クラスモデルに基づく日本語単語分割
- GENIAコーパスからのネスト並列句同定(解析・抽出)
- 4J-3 経験マイニングのための事実性解析(情報爆発時代におけるデータマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- アラインメントと機械学習を応用した並列句解析 : 医学生物学論文からの情報抽出に向けて
- MEDLINE概要文の役割分類に対する信頼度の異なるデータからの学習の適用(情報抽出・検索)
- 統計的学習モデルによる分かち書き解析器の自動点訳での有効性の解析
- 圧縮ファイルへの直接照合を可能にする符号化法の提案
- 圧縮ファイルへの直接検索を可能にする符号化法の考案
- 辞書の語彙構成と点訳精度の関係の解析(点字,福祉情報工学一般,地域におけるITサポート(シンポジウムテーマ))
- テキスト情報分析のための判断情報アノテーション
- カーネル法に基づく構造データのラベル付け学習アルゴリズム(「自動推論:帰納,演繹,モデル検査/生成,学習,発見,仮説推論、論理プログラム,プランニングetc.」及び一般)
- 機械学習による点字表記の解析 : 点訳支援システム構築に向けて
- 競合事物間における比較関係認識
- 競合事物間における比較関係認識
- 関連性理論を用いた発話の解釈
- 意見抽出を目的とした機械学習による属性-評価値対同定(属性抽出)
- 音声認識のための言語処理 : 何が足りないか?(言語モデル)
- 現場発想による自然言語処理ブレークスルーの探求
- 日本語単語分割の分野適応のための部分的アノテーションを用いた条件付き確率場の学習
- 二次錘計画法による多タスク学習算法
- 複数生物種ネットワークの同時予測:半教師つき学習によるアプローチ
- 係り受け木を利用した単語類似度計算方法とそのシソーラス拡張への応用
- 文間の弱い対立関係の認識
- 形態素・係り受け解析済みコーパス管理・検索ツール「茶器」
- WWWページからの手順に関する箇条書きの抽出
- 手順の説明を含む箇条書きを抽出するための手がかり分析
- Webフィルタリング処理時における表記ゆれの動的解決
- Webフィルタリング処理時における表記ゆれの動的解決
- ハブを作らないグラフ構築法を用いた半教師あり語義曖昧性解消
- Markov Logicによる日本語述語項構造解析
- オンライン最大マージン学習アルゴリズムに基づく多言語依存構造-述語項構造解析
- 係り受け解析器の部分解析精度評価とその利用(形態素・係り受け解析・感情)
- オンライン最大マージン学習アルゴリズムに基づく多言語依存構造--述語項構造解析 (言語理解とコミュニケーション)
- 係り受け解析器の部分解析精度評価とその利用 (情報学基礎・自然言語処理)
- 推移律を考慮した機械学習手法による時間的順序関係推定(解析・抽出)
- グラフ構造を持つ条件付確率場によるWikipedia文書中の固有表現分類
- 3種類の辞書による自動単語分割の精度向上
- スプライスト・アライソメントに基づいたcDNAライブラリの正確なクラスタリング・アルゴリズム
- クラスラベル付きグラフデータからの有用なパターンペア発見 (特集 「医療及び化学情報マイニング」および一般)
- 動的計画法によるリターン分布推定(IBIS2010(情報論的学習理論ワークショップ))
- 木構造データに対するカーネル関数の設計と解析
- 半構造データへのサポートベクターマシンの適用 (テーマ:一般演題及び「webとtext」)
- グラフとネットワークの機械学習の確立を目指して : 受賞タイトル 構造データ解析のための機械学習手法(平成20年度長尾真記念特別賞紹介)
- ネットワーク構造予測(ベイジアンネットワークと確率的情報処理の新展開)
- カーネル法による構造データの解析(機械学習による自然言語処理・言語処理を利用したメディア理解, 学習理論とパターン認識メディア理解, 機械学習による自然言語処理・言語処理を利用したメディア理解, 一般)
- カーネル法による構造データの解析(機械学習による自然言語処理・言語処理を利用したメディア理解, 学習理論とパターン認識メディア理解, 機械学習による自然言語処理・言語処理を利用したメディア理解, 一般)
- The 21st International Conference on Machine Learning (ICML) 2004 参加報告
- Web探訪 : カーネル法
- 電子調達オークションにおける最適な財の分配アルゴリズム
- 4. カーネル法による構造データマイニング(最新!データマイニング手法)
- 頻出部分文字列のマイニング(抽出,マイニング)
- 頻出部分文字列のマイニング(抽出, マイニング)(言語理解とコミュニケーション)
- 頻出部分文字列のマイニング
- 異なるタイプのドキュメントに対する著者推定
- 点予測による自動単語分割
- 複数情報源に対する主成分分析(主成分分析,テキスト・Webマイニング,一般)
- 3種類の辞書による自動単語分割の精度向上
- 音声対話システムにおける 簡略表現認識のための自動語彙拡張
- 自然言語処理における分野適応(知識の転移)
- 点予測による自動単語分割
- 「善い」マトリックスへの一歩?(編集委員今年の抱負2013)
- Learning from Crowds and Experts
- OS-07 ヒューマンコンピュテーションとクラウドソーシング(オーガナイズドセッション,2013年度人工知能学会全国大会(第27回))
- 方言対訳コーパスを用いた日本語方言音声認識システム(言語モデル・音声対話)
- 特集「ヒューマンコンピュテーションとクラウドソーシング」にあたって(ヒューマンコンピュテーションとクラウドソーシング)
- 「善い」マトリックスへの一歩?