3種類の辞書による自動単語分割の精度向上
スポンサーリンク
概要
- 論文の詳細を見る
本論文では、日本語の文の自動単語分割をある分野に適用する現実的な状況において、精度向上を図るための新しい方法を提案する。提案手法の最大の特徴は、複合語を参照することが可能な点である。複合語とは、内部の単語境界情報がなく、その両端も自動分割器の学習コーパスの作成に用いられた単語分割基準と必ずしも合致しない文字列である。このような複合語は、自然言語処理をある分野に適用する多くの場合に、利用可能な数少ない言語資源である。提案する自動単語分割器は、複合語に加えて単語や単語列を参照することも可能である。これにより、少ない人的コストでさらなる精度向上を図ることが可能である。実験では、これらの辞書を参照する自動単語分割システムを最大エントロピー法を用いて構築し、それぞれの辞書を参照する場合の自動単語分割の精度を比較した。実験の結果、本論文で提案する自動単語分割器は、複合語や単語列を参照することにより、対象野においてより高い分割精度を実現することが確認された。
- 一般社団法人情報処理学会の論文
- 2009-09-21
著者
関連論文
- 現場発想による自然言語処理ブレークスルーの探求(平成21年度論文賞の受賞論文紹介)
- 擬似確率的単語分割コーパスによる言語モデルの改良
- 部分的かつ曖昧なラベル付き構造データからのマルコフ条件付確率場の学習(情報抽出・ラベル付与)
- 最大エントロピー法による単語境界確率の推定
- 文字クラスモデルによる日本語単語分割
- 文字クラスモデルに基づく日本語単語分割
- 講義音声認識に基づくノートテイクシステム(福祉と音声処理,一般)
- 点予測と系列予測の2段階化による品詞推定の精度向上
- 点予測と系列予測の2段階化による品詞推定の精度向上
- 音声認識のための言語処理 : 何が足りないか?(言語モデル)
- 現場発想による自然言語処理ブレークスルーの探求
- 文脈を考慮した確率的モデルによる話し言葉の整形
- 重み付き有限状態トランスデューサーと対数線形モデルを用いた話し言葉の整形
- 日本語単語分割の分野適応のための部分的アノテーションを用いた条件付き確率場の学習
- 点予測による形態素解析
- ベイズ推論を用いた連続音声からの言語モデル学習
- ウイグル語の形態素に基づく言語モデルと音声認識システム
- 3種類の辞書による自動単語分割の精度向上
- 音声とテキストを用いた認識単語辞書の自動構築
- 講義音声認識に基づくノートテイクシステム(福祉と音声処理,一般)
- 大学講義のノートテイク支援のための音声認識用言語モデルの適応(言語モデル)
- 自動獲得した未知語の読み・文脈情報による仮名漢字変換
- 述語項の類似度に基づく情報推薦を行う音声対話システム
- 部分的アノテーションから学習可能な係り受け解析器
- 部分的アノテーションから学習可能な係り受け解析器
- テキストと音声を用いた単語と読みの自動獲得
- テキストと音声を用いた単語と読みの自動獲得(単語辞書・発音モデル)
- 点予測による自動単語分割
- 確率的タグ付与コーパスからの言語モデル構築
- 3種類の辞書による自動単語分割の精度向上
- 音声対話システムにおける 簡略表現認識のための自動語彙拡張
- 述語項の類似度に基づく情報抽出・推薦を行う音声対話システム
- 点予測による形態素解析
- 素性頻度ファイルと部分的アノテーションコーパスからの単語分割器の学習
- 自然言語処理における分野適応(知識の転移)
- 方言対訳コーパスを用いた日本語方言音声認識システム (音声・第14回音声言語シンポジウム)
- 自然言語処理における分野適応
- IwaCamを用いたメディア処理による遠隔コミュニケーションの支援 : 同時調理を題材とした映像と音声の役割に関する考察(調理支援,データ工学と食メディア)
- 方言対訳コーパスを用いた日本語方言音声認識システム(言語モデル・音声対話)
- レシピテキストからのフローグラフコーパス作成(データ工学と食メディア)