ベトナム語文書の固有名認識
スポンサーリンク
概要
- 論文の詳細を見る
文書中の語を所定のターゲットエンティティ・クラスに分類することを目的とする固有表現抽出(NER)は現在,情報検索や機械翻訳,情報抽出,質問応答など,多くの自然言語処理タスクの基盤とみなされている。本論文は,NER モデルに基づくサポートベクターマシン(SVM)をベトナム語に応用した実験の結果をまとめたものである。この最先端の機械学習法は,研究の進んだ一部の言語では広くNERに応用されているが,ベトナム語への応用はこれが初めてである。条件付確率場(CRF)との比較では,フィーチャーウィンドウのサイズの最適化でSVM モデルがCRF を上回り,全体的なF スコアは87.75である。本論文はベトナム語の特性についても詳細に論じ,このタスクにおけるパフォーマンスに影響する要因の分析も行う。
著者
-
Tri Tran
Faculty of Computer Sciences, University of Information Technology-VNU of HCMC
-
Thao Pham
Faculty of Computer Sciences, University of Information Technology-VNU of HCMC
-
Hung Ngo
Faculty of Computer Sciences, University of Information Technology-VNU of HCMC
-
DINH Dien
Faculty of Information Technology, University of Natural Sciences - VNU of HCMC
-
COLLIER Nigel
National Institute of Informatics
-
Collier Nigel
National Inst. Of Informatics Tokyo Jpn
-
Hung Ngo
Faculty Of Computer Sciences University Of Information Technology-vnu Of Hcmc
-
Tri Tran
Faculty Of Computer Sciences University Of Information Technology-vnu Of Hcmc
-
Thao Pham
Faculty Of Computer Sciences University Of Information Technology-vnu Of Hcmc
-
Dinh Dien
Faculty Of Information Technology University Of Natural Sciences - Vnu Of Hcmc