歴史的日本語資料のアノテーションと自動濁点付与
スポンサーリンク
概要
- 論文の詳細を見る
通時コーパスの構築に必要とされる歴史的日本語資料のアノテーションの全体について俯瞰した上で,アノテーション作業の自動化の試みの一つとして濁点の自動付与に関する研究成果を紹介する。歴史的資料では,濁点が十分に付与されていないものが少なくないが,そのままでは読みにくく検索や形態素解析にとって不都合である。そこで統計的機械学習に基づく自動濁点付与の手法を開発し,適合率約96%,再現率約98%での濁点付与を可能にした。これにより通時コーパス構築の作業負担の軽減が期待できる。最後に,今後の歴史コーパスに期待される高度なアノテーションについて展望する。
- 2013-10-00
著者
関連論文
- 形態素解析を用いた近代文語と現代語の語彙の比較(ポスター発表,日本語学会2009年度春季大会研究発表会発表要旨)
- 現代日本語書き言葉均衡コーパスの設計と検索デモンストレーション(デモンストレーション,日本語学会2007年度秋季大会研究発表会発表要旨)
- 『現代日本語書き言葉均衡コーパス』における可能表現のバリエーション(ポスター発表,日本語学会2009年度秋季大会研究発表会発表要旨)
- 『現代日本語書き言葉均衡コーパス』に現れる接続表現形式のジャンル別比較(ポスター発表,日本語学会2009年度春季大会研究発表会発表要旨)
- 中古和文を対象とした形態素解析辞書の開発
- 言語資料の共有,利用を支援する環境の実現(デモンストレーション,日本語学会2007年度秋季大会研究発表会発表要旨)
- 日本語研究に適した形態素解析ソフトウェア : 「UniDic」と「茶まめ」(デモンストレーション,日本語学会2007年度秋季大会研究発表会発表要旨)
- コーパス日本語学のための言語資源--形態素解析用電子化辞書の開発とその応用 (特集 コーパス日本語学の射程)
- 機械学習による近代文語文への濁点の自動付与
- 機械学習による近代文語文への濁点の自動付与
- 近代文語文を対象とした形態素解析辞書・近代文語UniDic(デモンストレーション,日本語学会2008年度春季大会研究発表会発表要旨)
- 「太陽コーパス」を使った近代語表現の通時的研究 : 口語文体・可能表現・待遇表現について(国語学会2002年度春季大会研究発表会発表要旨)
- 通時コーパスの構築に向けた古文用形態素解析辞書の開発
- 形態論情報の自動付与とその問題点 (特集 日本語研究とコーパス) -- (コーパスの構築と応用)
- 日本語研究のためのXMLタグ付けプログラム--その開発と活用例 (特集 コーパス日本語学の射程)
- 「太陽コーパス」における字音仮名遣いについて--小説記事のふりがなから
- コーパス用のオリジナルソフトの作成 (コーパス言語学) -- (コーパス用のソフトウェア)
- 学習語彙リスト作成の技法:日中英の視点から (第5回明海大学大学院応用言語学研究科セミナー講演)
- 近代日本語における「能ふ」の用法--「太陽コーパス」の用例から
- 近代語テキストからの可能動詞の抽出--「太陽コーパス」を例に
- 形態素解析辞書「中古和文UniDic」とその活用例(ブース発表,日本語学会2010年度秋季大会研究発表会発表要旨)
- コーパスとコロケーション強度を用いた中古語の語認定 : 「名詞+よし/あし/あり/なし」を例に(ブース発表,日本語学会2011年度春季大会研究発表会発表要旨)
- 近世口語テキストの構造化とその課題
- 研究資料(現代) (特集 2010年・2011年における日本語学界の展望)
- 明治期国定『高等小学読本』の可能表現形式
- 統計的機械学習を用いた歴史的資料への濁点付与の自動化
- 研究資料(現代)(2010年・2011年における日本語学界の展望)
- 中古和文を対象とした形態素解析辞書の開発
- 歴史的日本語資料のアノテーションと自動濁点付与
- 中古和文における個人文体とジャンル文体 : 多変量解析による歴史的資料の文体研究