複数モデルの統合によるLDAトピックモデルの高精度化とテキスト入力支援への応用
スポンサーリンク
概要
- 論文の詳細を見る
単語間の大域的な依存関係をトピック(話題)としてモデル化する言語モデルの1つであるLDA(Latent Dirichlet Allocation)を複数個統合する方式によって,言語モデルを高精度化・安定化できることを示す.新聞記事コーパスを用いた実験の結果,提案方式では単一のLDAからなる同一規模のモデルと比較して,つねに推定精度が向上・安定化することを確認した.単一LDAでは潜在トピック数<i>C</i> = 100前後を境に性能が低下するのに対し,提案方式では過適応が抑制され,はるかに大きい総トピック数(= 各モデルの潜在トピック数の総和)まで性能が向上し続ける.また提案方式によるunigram確率を用いて<i>N</i>-gram確率(<i>N</i>≥2)を補間することにより,trigramのパープレキシティを従来方式より大幅に削減できる.さらに本論文では,提案方式を予測入力に基づくテキスト入力支援(predictive text entry)に応用することを想定し,テキスト入力支援に適した言語モデル評価指標i-PPを提案する.この指標はパープレキシティの拡張であり,任意文字数の読み入力時点における平均単語分岐数を表す.この指標を用いた評価の結果,提案手法では入力読み文字数<i>l</i> = 2の時点まで通常のパープレキシティと同程度にi-PPを削減でき,従来方式よりも高精度に予測候補を絞り込めることが確かめられた.
- 一般社団法人情報処理学会の論文
- 2009-04-15
著者
-
池田 尚志
岐阜大学工学部
-
松本 忠博
岐阜大学工学部応用情報学科
-
池田 尚志
岐阜大学工学研究科
-
池田 尚志
Department Of Electronics And Computer Engineering Gifuuniversity
-
松本 忠博
岐阜大学工学部
-
松本 忠博
岐阜大学工学研究科応用情報学専攻
-
速水 悟
岐阜大学工学部応用情報学科
-
速水 悟
岐阜大学工学部
-
中村 明
三洋電機株式会社エコロジー技術研究所
-
津田 裕亮
岐阜大学工学部応用情報学科
関連論文
- 加速度情報を用いた日常行動認識について(デモ展示・ポスター講演,ネットワークプロセッサ,通信のための信号処理,無線LAN/PAN,一般)
- 携帯情報端末用スケーラブルフォントの試作と評価 (ヒューマンインタフェースとインタラクション)
- E_037 ミャンマー語の形式名詞構造の分析と日本語との対応(E分野:自然言語)
- E-014 日本語-ミャンマー語機械翻訳システムjaw/Myanmarにおける述語部構造の翻訳について(E.自然言語・文書・ゲーム)
- 日本語-手話機械翻訳の試みと手話文字生成編集システムおよび自動点訳編集システムについて(「ユニバーサルコミュニケーションを実現するための言語処理技術」シンポジウム)
- 品詞N-gram統計情報を用いた日本語文書における誤り検出法について
- 日本語-手話機械翻訳システムに向けて : テキストレベルの翻訳系の試作と簡単な例文の翻訳(福祉と知能・認知障害/一般)
- 手話の表記法とテキストレベルの日本語-手話機械翻訳システムの試みについて(聴覚・言語に関する障害及び加齢,聴覚・言語一般)
- K-064 日本語テキストから手話表記テキストへの機械翻訳の試み(K.ヒューマンコミュニケーション&インタラクション)
- E-34 手話における手指動作記述文の言語解析(自然言語処理応用,E.自然言語・文書)
- 手話における手指動作記述文の言語解析
- 手指動作記述文の分析と動作の断片を検索キーとする電子化手話辞典
- 日本語-ベトナム語機械翻訳における「N_1のN_2」の処理
- E-47 日越語の構造比較とj-aw/Vietnameseによる日越機械翻訳(機械翻訳(1),E.自然言語・文書)
- E-019 日中機械翻訳における授受表現「てくれる」構文の翻訳処理について(自然言語・音声・音楽,一般論文)
- 日中機械翻訳における存在表現の翻訳処理について
- 日中機械翻訳における構文上の対応のずれに関する考察 : 受動態と能動態のずれ、品詞のずれを中心に(翻訳)
- 日中機械翻訳における存在文および関連する問題について
- LE-001 日中機械翻訳における連体修飾構造の翻訳について(E分野:自然言語)
- 日中機械翻訳における否定文の翻訳
- 日中機械翻訳システム jaw/Chinese における変換・生成の方式
- 日中機械翻訳におけるテンス・アスペクトの処理
- 日中機械翻訳におけるとりたて表現の翻訳について : 「も」, 「さえ」, 「でも」
- 大域的個人性と局所的個人性に基づく手書き風フォントの生成
- 非線形変換と線形結合を用いたユーザ固有の手書き風フォントの一生成法
- 動的な環境下における確率的なルーティングアルゴリズムに関する研究
- 日本語-手話機械翻訳システムに向けて : テキストレベルの翻訳系の試作と簡単な例文の翻訳(福祉と知能・認知障害/一般)
- 品詞N-gram統計情報を用いた日本語文書における誤り検出法について
- 品詞N-gram統計情報を用いた日本語文書における誤り検出法について
- RK-003 SignWritingによる手話文記述支援システム(教育工学・福祉工学・マルチメディア応用,査読付き論文)
- E-022 Sign Writing生成のための手話語彙辞書の検討と構築(E分野:自然言語・音声・音楽)
- 手話文字SignWritingの記述支援 (第28回バイオメカニズム学術講演会 SOBIM2007 予稿集)
- 日本語を援用した日本手話表記法の試み
- 複数モデルの統合によるLDAトピックモデルの高精度化とテキスト入力支援への応用
- 手話テキストからの手話文字SignWritingの自動生成
- 日本語テキストから手話テキストへの機械翻訳の試み
- 日本語から手話への機械翻訳のための手話表記法の試み
- E-45 日中機械翻訳における中国語語順の決定法について(機械翻訳(1),E.自然言語・文書)
- E-44 パターン変換型機械翻訳システムj-awについて(機械翻訳(1),E.自然言語・文書)
- 形態素解析と意味コード化に基づく翻訳支援のための類似例文検索システム
- 構文テキストベースの構築と意味分類コードを用いた類似例文検索への応用
- 意味分類コードを用いた翻訳支援のための類似例文検索
- 非線形な重文複文の表現に対する文型パターン辞書の開発(機械翻訳)
- 電子文書点字化のための前処理フィルタを活用した遠隔点字印刷システム(福祉と言語処理/一般)
- 電子文書点字化のための前処理フィルタを活用した遠隔点字印刷システム(福祉と言語処理/一般)
- 遠隔地からの点字出力システム(福祉と言語処理, 一般)
- 遠隔地からの点字出力システム(福祉と言語処理,一般)
- 遠隔地からの点字出力システム(福祉と言語処理, 一般)
- 意味類型構築のための文接続表現の体系化
- 機械翻訳のための日英文型パターン記述言語
- 機械翻訳のための日英文型パターン記述言語
- 視覚障害者向けデジタルコンテンツアクセス支援技術の開発
- 等価的類推思考の原理による機械翻訳方式
- 構文付きコーパスの作成と類似用例検索システムへの応用
- 構文付きコーパスを対象とする用例検索システム
- 類似文字データベースとN-gramによる文字認識後処理
- 組込み装置向きプログラミング言語EBIFRY : 簡便さと安定性の両立のために
- Geometric Analysis of the Parameters of Linear Codes from AlgebricSurfaces
- GF(4)上のHermitian曲面から構成した符号のパラメータの分析
- 文字、単語統計解析の一手法
- 誤り箇所指摘機能をもたせた点字翻訳編集システムIBUK-TEN
- 3N-8 辞書データ主導型の自動点字翻訳システム
- 特異値分解(SVD)とHaar変換を用いたクロッピング耐性の高い電子透かし手法
- 並行性を伴うオブジェクト指向プログラムの階層的カラーぺトリネットによるモデル化
- 視角 360 度の監視員による衝立てのある直多角形ギャラリの監視問題 : 単純衝立ての場合に関する一考察
- 視角90度の監視員の直多角形ギャラリへの配置アルゴリズム
- 高速数論変換ネットワークの単純バタフライモジュール故障検出法
- 改良LCDDA法による可変歩幅ボクセル追跡
- Some Conditions for the Existence of Constant-Weight Binary Cyclic AN Codes
- 分散型教育用計算機システムを利用したレポ-ト評価支援ユ-ティリティの開発
- Ladec--並行プログラミング言語とその実現手法
- E-42 大規模コーパスにおける文パターンの分布調査(知識獲得,E.自然言語・文書)
- E-25 文節構造解析システムibukiBについて(自然言語解析・対話,E.自然言語・文書)
- 視覚障害者のための読書支援システムに関する研究
- 文節機能語列の数え上げと文節解析
- 1N-9 大規模データにおける文節機能語列の調査と長単位機能語辞書
- 長単位文節解析を利用した点字分かち書きシステム
- 部分字形組合せを用いた手書き風フォントの自動生成
- 部分字形組合せを用いた手書き風フォントの自動生成
- 手書き風フォントの自動生成について
- 感性モデルを組み込んだ文書作成支援システムの提案
- 文節ブロック間規則による浅い係り受け解析と精度評価
- 表層的情報とN近傍ブロック化手法による日本語長文の骨格構造解析
- 形態素情報と係り先範囲の制約に基づく日本語長文の骨格構造解析
- 表層的情報による日本語長文の骨格構造解析
- 視覚障害者のための読書支援システムに関する研究
- 視覚障害者のための読書支援システムに関する研究
- 日本語長文の係り受け解析 : 「は」のスコープおよび連体埋め込み構造のスコープに関して
- 文節ブロック間規則による浅い係り受け解析と精度評価
- 文節に対するコスト付け手法を用いた形態素解析システム
- モバイル環境におけるエーザインタフエース改善を目指して
- 文節単位のコスト最小法による日本語形態素解析
- 係り受け情報を用いた全文検索とその評価
- 係り受け関係を用いる高精度全文検索
- 最長一致法に基づく3種のアルゴリズムを融合した形態素解析
- 係り受け構造の照合に基づく用例検索システムTWIX
- スロット表現による複合機能語の処理
- 形態素解析の後編集による解析用辞書知識の獲得
- 文節解析システムibukiと自動点訳システムIBUKI-TEN