仮説検定に基づいた言語識別(機械翻訳・言語識別)
スポンサーリンク
概要
- 論文の詳細を見る
コーパスベースで言語知識を獲得する場合には,その言語の大規模なコーパスが必要となる.Web上には多種の言語で書かれた膨大な数の文書が存在するため,そこから文書を収集することによって様々な言語の大規模コーパスの構築が可能である.このとき,言語ごとのコーパスを構築するためには,まず,収集文書がどの言語で書かれているかを識別する必要がある.本論文では,仮説検定を導入した言語識別手法を提案する.この手法により,長いbyte列を用いた場合でも統計的な揺らぎの影響が小さい言語識別が可能となる.実験の結果,従来手法では識別が難しかった小さなサイズの文書に対しても高い精度で言語識別を行えることが確認できた.
- 一般社団法人情報処理学会の論文
- 2008-11-19
著者
-
冨浦 洋一
九州大学大学院システム情報科学研究院
-
柴田 雅博
九州大学 大学院システム情報科学研究院
-
柴田 雅博
九州大学大学院システム情報科学研究院
-
水田 貴章
九州大学大学院システム情報科学府
-
柴田 雅博
九州大学大学院システム情報科学府知能システム学専攻
-
冨浦 洋一
九州大学
関連論文
- 雑談自由対話を実現するためのWWW上の文書からの妥当な候補文選択手法
- 高速なParzen推定を用いた動的背景モデルによる映像からの物体検出
- 特集「研究開発における情報利用と著作権」にあたって
- 日本語作文支援における共起を利用した代替候補提示システム(学習・教育支援のための技術開発)
- 確率的変換に基づくインターネット調査手法の解析(ネットワークコミュニティ,ネットワークを支えるソフトウェア技術論文)
- 語義文における動詞間の上位-下位関係
- 仮説検定に基づく英文書の母語話者性の判別
- 仮説検定に基づいた言語識別(機械翻訳・言語識別)
- 統計的アプローチによる英語スラッシュ・リーディング教材の自動生成(自然言語)
- Web文書を言語資源とする情報検索型対話システム
- Web上の語の共起性に基づいたコロケーションの翻訳支援(ネットワークサービス)
- コロケーション翻訳支援システムに対する有用性の調査
- Web文書中の語の共起性を用いたコロケーション翻訳支援システムの実装
- 翻訳文法のための構文解析手法
- 翻訳文法を用いた機械翻訳
- 翻訳文法による機械翻訳とその実装
- 記号列を入出力とするニューラルネットの学習法(知識処理)
- チャンキング過程を考慮したスラッシュ・リーディング用文書の生成
- Web上の語の共起性に基づくコロケーション翻訳支援に関する研究(自然言語,人工知能分野における博士論文)
- 編集にあたって(ここまできた自然言語処理-例文の収集とその利用-)
- NS/NNS論文分類モデルに基づく日本人英語科学論文の特徴抽出
- Skew Divergenceに基づく文書の母語話者性の推定
- LF-003 Skew Divergenceに基づく母語話者/非母語話者文書の判別(F. 人工知能)
- 低頻度byte列を活用した言語識別(自然言語)
- 共起データに基づく名詞の多次元空間への配置
- 類語集合対応の推定と英語を介した辞書合成への応用
- 非内容語のN-gramに基づく英語母語話者性の推定(質問応答・文書分類・自動収集)
- 共起データに基づく名詞の多次元空間への配置
- 共起データに基づく名詞のn次元空間への配置
- LE-3 類語集合による英語を介して導出した対訳候補の絞り込み(E. 自然言語・文書)
- 係り受け情報を用いた名詞句「NP_1のNP_2」の意味関係の候補の抽出
- 不完全データに対する判別分析と語の共起性推定への応用
- 不完全データに対する判別分析と語の共起性推定への応用
- 共起制約を組み込んだ確率文法による名詞句の統語的曖昧さの解消
- 意味範疇の散らばりに基づいた名詞の統語範疇の分類
- 係り受け文脈自由文法とその日本語への適用
- 係り受け制約を組み込んだPCFGの評価
- 限定頻度を考慮した確率文脈自由文法
- 係リ受け制約の文脈自由文法への組み込み法
- 記号表現ベクトル学習機能を有するニューラルネットの英語前置詞句係り先決定問題における実験的評価
- 言語コーパスからの語の共起性の推定(自然言語)
- 言語コーパスからの語の共起性の推定
- 汎化された係り受け文脈自由文法の構文解析法
- スパースな学習データにおける確率係り受け文脈自由文法の確率パラメータの推定法
- 九州大学大学院「ライブラリーサイエンス専攻」の構想と意義
- 位置情報に基づくP2Pネットワークを用いた情報通知プラットフォーム
- Webを源とした質情報付き英語科学論文コーパスの構築法
- ランダムフォレストを用いた英語科学論文の分類と評価
- 統計的手法を用いた名詞句「NPのNP」の意味関係の抽出法
- 名詞句「NPのNP」の意味構造推定のための名詞の統語範疇の獲得
- 博士論文に見る研究テーマの動向(人工知能分野における博士論文)
- 博士論文に見る新しい研究の流れ(人工知能分野における博士論文)
- Web上の大量文書からの語彙知識の獲得(編集委員2007年の抱負)
- LE_004 言語識別技術を応用した英語における母語話者文書・非母語話者文書の判別(E分野:自然言語)
- 語が使われる環境と意味の獲得(ようこそ人工知能の世界へ : 編集委員今年の初夢)
- 語が使われる環境と意味の獲得
- 小特集「言語獲得」にあたって(「言語獲得」)
- 係り受け文脈自由文法の強化法
- スパースな学習データにおけるPCFGの確率パラメタの推定法
- スパースな学習データにおけるPCFGの確率パラメタの推定法
- スパースな学習データにおける確率係り受け文脈自由文法のパラメタ推定法
- k-NN推定法に基づく統語的あいまいさの解消法
- 複合化確率文脈自由文法の提案
- k-NN推定法に基づく統語的曖昧さの解消法
- 日本語学習者の動詞選択における誤用と正用の関係 : 作文支援のための基礎研究
- コーパス構築と著作権 : Webを源とした質情報付き英語科学論文コーパス
- フレーズ生成機構を組み込んだ潜在変数を有する生成モデルによるトピック分析
- 学校英文法の学参例文データベースとその応用:日本人英語科学論文における文法項目の使用傾向