Webコーパスの提案(コーパス構築)(セマンティックウェブと自然言語処理その他一般)
スポンサーリンク
概要
- 論文の詳細を見る
Webをコーパスの情報源としたWebコーパスの構築手法を提案する.一般的に用いられている新聞コーパスの量やそれに伴う用例の少なさは否めない.そこで,我々はWebに着目した.Webを用いることで量的な問題を解決できるが,そのまま用いたのでは表現そのものや,文の構造に問題がある.そこでコーパスを質の面から検討を行う.質改善の手法として,HTMLタグや日本語文章の書法を用いて改善を試みる外面的質の考慮を挙げる.さらに記号を多用した文や話しことばの崩れた文を削除し,文字種の割合を示す字面比を用いて文を削除する等の内面的質を考慮する手法を提案する.構築したWebコーパスに対して2種類の実験を行った.1つめは,異なり単語数やシソーラスを用いて単語の特徴を観察した.2つめは,有用性を調査するため,格フレームを用いて調査を行った.その結果,異なり単語数,格フレーム数ともに新聞や未処理のWebテキストを上回るコーパスを構築できた.
- 2003-09-29
著者
関連論文
- Webコーパスの提案(コーパス構築)(セマンティックウェブと自然言語処理その他一般)
- Wikipediaからの大規模な人オントロジー構築
- 日本語用言を見つめ直す
- 対訳辞書作成のための英訳辞書の照合
- 対訳辞書作成のための英訳辞書の照合
- 計算機処理のための韓国語言語体系と形態素処理
- 日本語語彙大系を用いたWikipediaからの汎用オントロジー構築
- Wikipedia からの大規模な人オントロジー構築
- サポートベクトルマシンを用いた中国語解析実験
- 中国語形態素解析に対するSVMとコスト最小法の比較実験
- 中国語形態素解析に対するSVMとコスト最小法の比較実験
- ニュース文の音声要約のための韻律情報の利用
- 語順を考慮した格フレームの提案と獲得手法
- 非対訳コーパスを用いた日本語複合名詞の英訳語推定
- 重複部・冗長部削除による複数記事要約手法
- 名詞の連接情報を用いた関連文書検索手法
- 名詞を中心とした連接に着目した新聞の関連記事検索手法
- 日本語新聞記事を対象とした関連記事検索の一手法
- 構文片を用いた分野の同定を必要としない意見・評判情報抽出(「主観表現処理の最前線」シンポジウム)
- 決定木を用いた日本語ゼロ代名詞補完
- 係り受け関係を用いた重複表現削除
- 動詞型連体修飾表現の"N_1のN_2"への言い換え
- 要約のための連体修飾節の"AのB"への言い換え
- コーパスを利用した効率的な翻訳規則の拡充
- 大規模オープンソース日英対訳コーパスの構築
- 大規模オープンソース日英対訳コーパスの構築
- 複数決定木を用いた入力誤りに頑健な省略補完手法
- 決定木学習による日本語対話文の格要素省略補完
- 音声対話における頑健な主語補完手法
- 単語と品詞の混合 n-gram を用いた形態素解析
- 要約技術と検索技術 (特集 インターネット検索技術と日本語研究)
- 要約事例を用例として模倣利用したニュース記事要約
- 用例利用型による文間接続関係の同定
- 文書に対する大衆の興味の強さの推定
- LE-003 講義スライドへの書き起こしデータの対応付け(自然言語・音声・音楽)
- LE-002 要約事例を用例として利用したニュース記事要約(自然言語・音声・音楽)
- 濃縮還元型文要約モデルの検討(談話・要約)
- 文間接続関係の自動同定のための人間による同定分析(談話・要約)
- 濃縮還元型文要約モデルの検討(談話・要約)
- 文間接続関係の自動同定のための人間による同定分析(談話・要約)
- 類似用例文の部分的置換による文短縮(解析,分析)
- 「新幹線要約」のための文末の整形
- 「サ変動詞+名詞」の複合名詞への換言
- 国会会議録を対象とする話し言葉要約
- 繰り返し学習を用いた話題に順応する意見文抽出 (情報処理学会 情報学基礎研究会(FI)第77回)
- 繰り返し学習を用いた話題に順応する意見文抽出
- 順位付け文書からの影響因子マイニング(マイニング、要約)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- 中国語のコンピュータ処理について--コンピュータによる中国語処理の発展と課題 (特集2 人文科学研究と自然言語処理)
- 冗長度削減による関連新聞記事の要約
- 冗長度削減による関連新聞記事の要約
- 5 テキスト自動要約における新たな展開と展望 : 統計的方法,換言処理,そして…(テキスト自動要約 : 知的活動支援の基本技術として)
- 連用修飾表現の省略可能性に関する知識の獲得
- 類似文の比較による省略可能な格要素の認定
- 関連テキストを利用した重複表現削減による要約
- 分類体系相互の関係を利用したテキストの自動分類
- 日本語語彙大系を用いた Wikipedia からの汎用オントロジー構築
- 用例に基づく日韓の対話翻訳処理機構
- 「新幹線要約」のための文末の整形(マイニング、要約)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- 「新幹線要約」のための文末の整形(マイニング、要約)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- 順位付け文書からの影響因子マイニング(マイニング、要約)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- 順位付け文書からの影響因子マイニング
- 「コ」「ソ」系指示語の用法に関する仮説とその検証
- 文章内構造を複合的に利用した論説文要約システムGREEN
- 段落分けを用いた日本語文章における結束構造の検討
- 文章内構造を複合的に利用した論説文要約システムGREEN
- グラフ節点のある種の線形配列問題について
- グラフ節点のある種の線形配列問題について(計算機構とアルゴリズム)
- グラフ節点の隣接枝のみを考慮した線形配列問題について(グラフ・ネットワーク)
- 頑健な多言語音声翻訳のための不適格入力の分割処理 (コンピュータグラフィクスの新展開)
- 構成素境界解析を用いた多言語話し言葉翻訳
- 特徴的冗長表現に着目した国会会議録要約(コーパス分析・言い換え)(セマンティックウェブと自然言語処理その他一般)
- 説明文と記述要素の関係要因の調査 : そこにクエリの「何」が書かれているのか(検索,第1回テキストマイニング・シンポジウム)
- クエリと説明文の関係を表す記述要素辞書の構築 (言語理解とコミュニケーション)
- 段落分けた関わる諸要素の評価について
- 語の類縁性を用いた日本語文章の段落分けの試み
- カテゴリ名と記事名の意味属性分類に基づくWikipediaからの上位下位関係オントロジーの構築
- 保険関連文書間の自動対応付け (産業日本語関連)
- 特徴的冗長表現に着目した国会会議録要約
- クエリと説明文の関係を表す記述要素辞書の構築(検索調査,第2回テキストマイニング・シンポジウム)
- 質問意図によるQAサイト質問文の自動分類 (思考と言語)
- 質問意図によるQAサイト質問文の自動分類 (言語理解とコミュニケーション)
- カテゴリ名と記事名の意味属性分類に基づく Wikipedia からの上位下位関係オントロジーの構築
- 用言等換言辞書を用いた換言の考察 (思考と言語)
- 用言等換言辞書を用いた換言の考察 (言語理解とコミュニケーション)
- 日本語用言を見つめ直す (自然言語処理(NL) : 語彙・オントロジー・知識獲得)
- 全文を翻訳しようとしない機械翻訳 : ワードグラフによる部分的機械翻訳の試み (機械翻訳技術の向上)
- 質問意図によるQAサイト質問文の自動分類(Web分析,言語処理・言語分析の社会応用,及び一般)
- 質問意図によるQAサイト質問文の自動分類(Web分析,言語処理・言語分析の社会応用,及び一般)