不変式の方法によるデータ要約と外れ値異常値の扱い(一般セッション1)
スポンサーリンク
概要
- 論文の詳細を見る
不変式の方法によるデータ要約は,具体的にはいくつかのケース不変式のファミリーに基づいてセキュリティの深さの定義を与え,要約に利用するか否かを決定せねばならない。このケース不変式の値を中間まとめと呼ぶ。パラメトリックでない手法を取り扱うことを考慮しているために,以前名づけた中間まとめの概念は拡大され,そのため中間まとめに適当な条件が必要である。パラメトリックな手法のための中間まとめを考えるならば,条件は通常成立する。欠測値を扱うための方法は最尤法によらない方法は以前述べた。不完全データの解析では項目特性の制約や中間まとめの内容の制約が生じる。異常値外れ値の扱いに対応する削除の方法に言及する。このような方法提案の理由は以下である。(1)個々のデータを非公開とし,統計解析が十分実行できるような中間まとめのみを公開する。中間まとめからは個々のデータは決して再現できない。セキュリティを考慮したデータセットの内容の記述である。(2)異なる解析手法の実行や将来解析手法に発展が生じたとき,保存されている中間まとめから解析を実行する。またデータの解析を様々な立場の人に委ねることを可能としたい。さらに2次分析など自己の所有でないデータセットを分析するといったを利用を促進したい。(3)各種の統計調査結果を統計解析が十分実行できる程度まで公表する。公表統計の発展を目指す。公共性の強いデータの公開という公共財の問題に資する。(4)複数のデータセットを各データセットは非公開のまま,中間まとめの融合によって,より大きなデータセットを実質的に構築する。メタ・アナリシスに供するデータセットの作成である。もちろん融合後なにが必要かについて事前にしっかりとした設計が必要である。(5)特別な設定で現実的場面がある。データが徐々に追加されていく場合である。追加前のデータセットを復活せず,新しい中間まとめが一つ手前の中間まとめと追加データから構成できることが重要である。例えば個人情報保護の観点から元のデータセットはできるだけ手許に置かないことが理想である。このような場合しっかりとした検討経た後必要な中間まとめのみの蓄えに留める決断が必至である。根本的なアイデアは「統計計算はケース番号の置換に対して不変である。」という事実である。ケース番号34のデータをケース番号18のデータと交換しても統計解析は同じ結果でなくてはならない。数学的にいえば統計計算は,標本数をmとするとき,対称群S_m不変である。簡単な例で考える。項目は通常複数である。(x_1,x_2,...,x_m),(y_1,y_2,...,y_m),(z_1,z_2,...,z_m)を3項目x,y,zのm個のケースのデータセットとしよう.多項式環 K[x_1,x_2,...,x_m,y_1,y_2,...,y_m,z_1,z_2,...,z_m],ここでKはとりあえず複素数全体,がデータからの和差と積の計算全体である。これについて対称群S_mに対する不変式環 K[x_1,x_2,...,x_m,y_1,y_2,...,y_m,z_1,z_2,...,z_m]^<Sm>が和差と積による統計計算において重要である。すなわち不変式環の生成系つまりS_mによる基本不変式とその関係式等が問題の核心である。ヒルベルトの仕事によりこの不変式環はもちろん有限個の生成系をもつ。H.カルタンの仕事によって斉次に取れば,べき級数でもよい。したがって利用者が要求する不変式を基本不変式の一部のファミリーのみの開示にとどめれば,セキュリティが守られることになる。ワイルのtypical basic invariantsはよい性質をもつ。もちろん超越次数が考慮される。また項目ごとのセキュリティを考慮することが必要である。この報告では質的項目と量的項目は扱いが異なる。原則的に以下のように取り扱う。例として配偶者有無と性という2つの項目がある場合を考えてみよう。データの標本数が少なくなると,情報の開示により当然セキュリティが危険にさらされる。配偶者有無,男女で2×2のセルに分けられる。あるセルのデータが少ない場合,そのセルのデータのセキュリティが破られやすい。当然各セルのデータの標本数とセキュリティが関係してくることになる。各セルごとにセキュリティの深さの次元を計算する。セキュリティの深さの次元を次のように定義する。統計解析のための開示つまり中間まとめとして,項目数n標本数mについてp個のケース不変式のファミリーI_1,I_2,...,I_pを考える。I_1,I_2,…,I_pをまとめたI:K^<mn>/S_m→K^pを考え,そのデータセットの値をそれぞれa_1,a_2,...,a_pとしよう。[numerical formula]すなわちケース不変式のファミリーのデータセットの値のセットのファイバーの次元をセキュリティの深さの次元と呼ぼう。
著者
関連論文
- 頑健な秘匿性をもつ代理データセットの構成(セッション2B)
- 不変式の方法によるデータ要約と外れ値異常値の扱い(一般セッション1)
- Weylによる不変式対max-plus不変式とパラメトリックな手法対ノンパラメトリックな手法の平行性について(セッション-3)
- 不変式の方法による欠測データへのアプローチ(日本計算機統計学会 第19回シンポジウム)
- カルタンの商空間の理論の統計への応用