隣接文節間の係り受け情報に着目した話し言葉のチャンキングの評価

概要

論文の詳細を見る
会議録作成支援や字幕付与などの音声言語処理を指向して、話し言葉を"適当な"単位に区分化することを考える。従来、話し言葉音声では、ポーズに基づいて発話単位を設定することが多いが、ポーズが文や節の境界と対応しない場合が多く、均質な言語的まとまりにならない。一方、話し言葉の節や文の境界を機械学習に基づいて検出する方法も研究されているが、音声認識結果に対してはF値が70%台であり、誤検出箇所に関して意味づけを見いだすのが難しい。これに対して本研究では、話し言葉の非定型性や音声認識誤りに頑健であると考えられる局所的な特徴、具体的には隣接文節間の係り受けに着目して、チャンキングを行う。述語判定や係り受けタイプ判定を組み合わせることにより、文の主題や述語・格要素におおむね対応する「構成要素」を抽出する。『日本語話し言葉コーパス』(CSJ)で分析・評価を行った結果、隣接文節間に絞ることで係り受け解析が高い精度でできること、構成要素に基づいて音声認識結果に対してもより頑健に節境界を検出できることが示された。
一般社団法人情報処理学会の論文
2006-05-11