言語データマネージメントのための言語タグを利用した区間演算と区間検索
スポンサーリンク
概要
- 論文の詳細を見る
現在, 言語知識を有用な形で蓄積し, 言語処理を効率化する目的で, 統語タグ, 意味タグ等, 様々な言語タグ体系が定義されている.また, GDA(Global Document Annotation), GENIA等, 言語タグを文書へ付与することを目的とした, いくつかのコーパス整備プロジェクトも進行しつつある.このような言語タグは, 現状では, SGML, XMLを基本としたものが主流であるため, 通常, テキストに埋め込む形で実装されるが, 統語タグ等, 入れ子構造を許すものや, 複数の可能な組み合わせに対するコンプレックス構造を持つもの等が存在する上, 品詞タグに対する意味タグ等の異なる体系のタグも同一の文書に付与される場合, 視認性, 操作性を著しく損なう可能性がある.そのため, 人手によるタグ付け段階における作業の非効率性や, タグ付けの誤り, 整合性, 一貫性のチェック等におけるタグ検索の非効率化が問題となっている.本稿では, このような問題に対し, コーパスにおける言語タグの管理方法について議論する.また, 言語タグによる区間指定と区間演算を定義し, これらを用いた効率的な言語データマネージメントの実現手法を提案する.本手法により, タグ間の演算を用いた区間抽出, タグ情報の変更や付与履歴に関する差分抽出, 人手や自動付与によるタグのゆれ抽出等のタグに関する各種区間指定, およびタグ種や属性によるフィルタリングを容易に実行できるため, 効率的な言語データの管理・運用を行うことが可能となる.
- 社団法人電子情報通信学会の論文
- 2000-05-05
著者
-
辻井 潤一
東京大学大学院情報学環
-
辻井 潤一
東京大学理学部情報科学科
-
辻井 潤一
東京大学
-
美馬 秀樹
東京大学
-
美馬 秀樹
ATR音声翻訳通信研究所
-
美馬 秀樹
東京大学大学院工学系研究科
-
辻井 潤一
東京大学大学院情報理工学系研究科
-
辻井 潤一
東京大学大学院情報理工学系研究科コンピュータ科学専攻|マンチェスター大学情報学研究科|英国国立テキストマニングセンター
-
美馬 秀樹
徳島大学工学部知能情報工学科
-
美馬 秀樹
東京大学大学院工学系研究科工学教育推進機構
-
美馬 秀樹
徳島大学
-
美馬 秀樹
東大
関連論文
- 連載:理学のキーワード : 第26回
- 理学のキーワード : 第11回
- 頑健なHPSGパーザの出力からTDL意味表現への変換手法(推論・意味)
- MK-6 東京大学理学部生物情報科学学部教育特別プログラム(大型プロジェクト紹介,学術系企画)
- 研究紹介
- 2P-3 タームのrepresentativenessを測るための新指標
- タームのrepresentativenessを測る
- コーパスに基づく動詞の多義解消
- 辞書を使わない日本語専門用語の自動分割
- 専門用語の自動抽出
- コーパスに基づく動詞の多義解消
- 1C-1 高速な類似文字列検索アルゴリズム(情報検索・情報推薦,一般セッション,データベースとメディア,情報処理学会創立50周年記念)
- HPSG Supertagging の精度向上のための単語クラスタリング
- HPSG Supertagging の精度向上のための単語クラスタリング
- 編集にあたって(自然言語処理の高度化による知的生産性の向上)
- 深い構文解析のための高被覆な中国語HPSG文法の開発
- 日本語CCGの語彙項目獲得(語彙・概念の獲得と同義語)
- SupertaggingとCFG-filteringによるHPSG構文解析の高速化(深い言語処理のためのフレームワーク)
- 純粋な逐次処理による構文解析での探索候補数の削減(構文解析・機械翻訳)
- 純粋な逐次処理による構文解析での探索候補数の削減(構文解析・機械翻訳)
- 頑健なHPSGパーザの出力からTDL意味表現への変換手法(推論・意味)
- 教師なし隠れマルコフモデルを利用した最大エントロピータグ付けモデル
- 教師なし隠れマルコフモデルを利用した最大エントロピータグ付けモデル
- PCFGと分岐HMMを用いた構文解析(文構造解析)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- PCFGと分岐HMMを用いた構文解析(文構造解析)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- PCFGと分岐HMMを用いた構文解析
- 実用的な文法を開発するためのデバッグツール
- HPSG パーザーの為のGUI
- 言語理解・意味理解の先駆者田中穂積先生の想い出(8)
- 相互作用情報タグつき生命科学論文アブストラクトコーパスの作成(Text mining)
- 4 バイオNLPのためのコーパスと各種リソースの現状(ポストゲノム時代に高まるバイオ自然言語処理への期待 : バイオ自然言語処理最新事情)
- ゲノム科学におけるテキストマイニングと自然言語処理 (ゲノムサイエンスの新たなる挑戦) -- (第3部 ゲノム情報科学)
- 4P-5 医学・生物学文献からのタグ付きコーパスの作成
- 医学・生物学論文からのタグ付きコーパスの作成
- 言語データマネージメントのための言語タグを利用した区間演算と区間検索
- 6-322 理科教育から工学教育への連携を意識した学習支援プログラムの設計 : 小中高から大学へ((18)工学教育システムの個性化・活性化-I,口頭発表論文)
- 用語抽出技術を利用したテキスト分類(フィルタリング、文書分類)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- 用語抽出技術を利用したテキスト分類(フィルタリング、文書分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- 生命の理解とオントロジー (特集 ゲノムサイエンスの新地平--30億文字の生命設計図を探る)
- LTAG文法からの変換によるHPSG英文法の作成
- 3つ以下の候補から係り先を選択する係り受け解析モデル
- 並列HPSGパーザーに向けて
- HPSGから有限状態オートマタへ
- 生きた言葉を捉える技術--自然言語処理の躍進と新たな課題 (特集 言語学的探究の行方--「生きたことば」と言語研究)
- 計算機による言語情報処理研究と言語学 (特集 言語処理研究の新展開--計算機と言語学の対話に向けて)
- 6 ゲノム情報学と言語処理(ゲノム情報科学 : 観測技術の進展を支えるインフォマティクス)
- リレー対談 認知科学との対話(4)計算言語学から探る人間の知--辻井潤一×辻幸夫
- 言語を計算機でどのように捉えるか (特集 ことばのコンピュートピア--人間との対話を目ざして)
- ことばとコンピュータ--言語理解のプロセスを探る-12・最終回-計算言語学の展開と行方
- ことばとコンピュータ (11)二つの言語学は統合可能か
- ことばとコンピュータ--言語理解のプロセスをさぐる(10)反カテゴリカルなシステムの可能性
- ことばとコンピュータ(9)90年代言語処理研究--その転回の源流
- ことばとコンピュータ--言語理解のプロセスをさぐる(8)八〇年代合理主義の功罪
- ことばとコンピュータ--言語理解のプロセスをさぐる(7)合理主義の曲がり角
- ことばとコンピュータ(6)移行派理論のブレークスルー
- ことばとコンピュータ--言語理解のプロセスをさぐる(5)確率モデルによる機械翻訳の進化
- ことばとコンピュータ(4)機械翻訳における経験主義と合理主義
- マルチプルアライメントによる放送に対する反響の抽出(「主観表現処理の最前線」シンポジウム)
- HPSG Supertagging の精度向上のための単語クラスタリング
- 日本語固有表現抽出の難易度を示す指標の提案と評価
- 全ての部分文字列を考慮した文書分類(分類)
- UIMAを基盤とする相互運用性の向上と自動組み合わせ比較 : 国際共同プロジェクトU-Compare(アーキテクチャ)
- UIMAを基盤とする相互運用性の向上と自動組み合わせ比較 : 国際共同プロジェクトU-Compare(アーキテクチャ)
- レビューに対する評価指標の自動付与
- 座談会 言語と計算をめぐって
- 対談 脳の見方,モノの見方(10)脳が紡ぎ出す言葉の世界
- 特別寄稿 情報の消費を効率化する第3の革命
- 電子文書による情報アクセスと情報の共有
- 特許のトータルな系でのシステム構成、明晰な日本語の定義などが重要 (Japio年誌ネット座談会 特許分野における機械翻訳の活用と、特許版・産業日本語への期待)
- 基調講演 テキストから知識・情報へ:生命科学を題材にして (2003年情報学シンポジウム講演論文集--データの共有と知識の発見・創造) -- (知識創造のための基盤技術)
- e-サイエンスから研究活動の電子化へ
- 普通のなかの個別性 (誌上月報 シリーズ言語科学(1)文法理論:レキシコンと統語)
- 招待講演 情報共有と知識共有のための言語処理技術の最前線 (〔教育システム情報学会〕言語・知識処理応用研究部会 第82回研究会)
- 計算言語から見たチョムスキー (特集 チョムスキー再考--言語は本能か?)
- P2Pコンテンツ交換システムにおけるコンテンツの整合性維持および全文検索の高度化(セッション2 : マルチメディアシステム)
- JLUGM--日本Lispユーザ会議(3)次世代Web技術としての動的サーバ技術--マルチスレッドLispによる可能性
- 社会的役割の考慮による対話翻訳の精度向上
- 同時通訳システムの実現に向けた漸進的翻訳処理
- 課題志向別シラバス自動分類システムの設計と実装
- 10-106 課題志向別シラバス自動分類システムの開発(口頭発表論文,(14)教育ソフトウェア)
- 課題志向別シラバス自動分類システムの設計と実装
- 固有表現抽出のための大規模訓練データの自動獲得
- 固有表現抽出のための大規模訓練データの自動獲得
- 自動意味役割付与における意味役割の汎化
- アラインメントに基づいた日中漢字の対応関係における解析(機械翻訳・言語識別)
- JST-9 情報のモビリティを高めるための基盤技術(大型プロジェクト紹介,学術系企画)
- 行動科学と計算言語学 (特集 行動科学とは何か)
- 集合間類似度に対する簡潔かつ高速な類似文字列検索アルゴリズム
- ことばとコンピュータ--言語理解のプロセスをさぐる(3)言語機械、知能機械をつくることの意味
- 人工知能研究にみる言語処理システム
- 新連載 ことばとコンピュータ--言語理解のプロセスをさぐる
- 日本語研究と電子化
- 大量テキストの構造付与と人工知能研究 (AIチャレンジ)
- 中国の研究事情
- 生命・医学文献からの遺伝子名の抽出と同定
- 合理主義と経験主義のはざまで : 内的な処理の計算モデル(ポスト経験主義の言語処理)
- 情報検索から情報構造化、情報発見へ向けて (特許情報普及活動功労者表彰 発足記念版)
- IJCAI-97への期待: 言語処理の立場から ("IJCAI-97"日本開催への期待(4))
- 論文誌の役割
- 視点の変換 : 言語の理論から設計の理論へ