マレー語のステマーの開発とその評価(形態素・係り受け解析・感情)
スポンサーリンク
概要
- 論文の詳細を見る
マレー語を対象とした接辞処理のアルゴリズムを提案する.マレー語には,接辞が文法上の重要な役割を果たすという特徴があり,接辞が語幹に付く仕組みが複雑である.英語などの他の言語では,末尾の語形変化や接尾辞を繰り返し除去する単純なステマーが用いられているが,そのようなステマーをマレー語に適用しても接辞処理の効果が得られない.マレー語の接辞の特徴を考慮した接辞処理のアルゴリズムが必要である.同一の語幹をもつ,意味の類似した派生形をまとめあげる接辞処理は,索引語の多様性を吸収する効果がある.しかし,意味の大きく異なる派生形を同一の語幹に関連づける過度な接辞処理を行うと,接辞処理がかえって索引処理に悪影響を及ぼす場合もある.このため,開発したステマーではマレー語の接辞ルールと二種類の単語辞書(語幹辞書と派生語辞書)を用いた接辞処理により,派生形に対する過度な接辞処理を避け,効果的な接辞除去を行っている.WWW上のマレー語のテキストデータを用いて行ったステマーの性能評価についても報告する.
- 一般社団法人情報処理学会の論文
- 2009-01-15
著者
-
横尾 英俊
群馬大学大学院工学研究科情報工学専攻
-
リム フイ・ティアン
群馬大学工学部情報工学科
-
安川 美智子
群馬大学大学院工学研究科情報工学専攻
-
横尾 英俊
群馬大学
-
横尾 英俊
群馬大学大学院工学研究科
-
横尾 英俊
群馬大学大学院 工学研究科
関連論文
- 一般化Radix Permute変換による無ひずみデータ圧縮(情報理論)
- クエリログから獲得した関連語のクラスタリングに基づくWeb検索(Web検索,データ工学論文)
- マレー語のステマーの開発とその評価(形態素・係り受け解析・感情)
- マレー語のステマーの開発とその評価(形態素・係り受け解析・感情)
- マレー語のステマーの開発とその評価 (情報学基礎・自然言語処理)
- ゴーレイ符号による情報ハイディングと画像データヘの応用(画像)
- 携帯端末向け地図情報検索・閲覧システムの提案(ツール・システム)
- 子音に注目した早口言葉の検索
- 子音に注目した早口言葉の検索
- ユニバーサル符号とデータ圧縮論文小特集の発行にあたって
- 自然数の表現に基づく多重指数分割浮動小数点表示方式のクラス
- 発音照合アルゴリズムを用いた早口言葉の検索
- 発音照合アルゴリズムを用いた早口言葉の検索
- CSE無ひずみデータ圧縮法の情報理論的解釈
- AP-1-1 厳選素材のコンパクト情報理論(AP-1.情報理論・符号理論の教え方,パネルセッション,ソサイエティ企画)
- Compression by Substring Enumeration符号化法のBWT行列による実現