next up previous
次へ: 記号と定義 上へ: 多変量データ解析の理論 戻る: 多変量データ解析の理論

はじめに

多変量データ解析は、観測された多数のデータをその相互関係を考慮に入れて同時に 統合的に取り扱い、データの持つ情報を効率よく要約し、我々の直観的総合的判断に 有用な形にまとめるための手法である[165]。これまで主に曖昧な対象 を扱う必要のある人文・社会科学の分野で利用され発展してきた。具体的な応用の場 面に応じて種々の手法が開発されているが、一般には単にデータを解釈するための補 助手段として使われることが多い。「柔らかな情報処理」を実現するためには、そう した手法を知的情報処理システムに積極的に組み込んで工学的な応用を図ることが重 要である。

多変量データ解析手法の多くは、与えられたデータに対してある評価基準の下で最適 な線形変換を求めるという形で定式化されている。線形変換を求めるという形で定式 化することによって、データに関する二次までの統計量さえ推定できれば問題を解く ことができる。しかし、線形という制約を入れることによって、そうしたデータ解析 手法が本質的にどのようなデータ処理を行なっているのか、あるいは、データの持つ 確率的な構造をどのように抽出しているのか、という側面がわかりにくくなっている ように思われる。

この線形変換という制約を取り去って多変量データ解析手法を一般の非線形変換を許 すように拡張すると、多変量データ解析手法が本質的にどのようなデータ処理を行なっ ているのか、あるいは、データの持つ確率的な構造をどのように抽出しているのか明 らかにできる。また、線形モデルによる定式化では不明確な各々の手法の相互の関係 も明らかになる。その結果、多変量データ解析手法の意味がより深く理解でき、手法 を応用する際に役立つことが期待できる。さらに、人間の脳を真似た情報処理の実現 を目指すニューラルコンピューティングの研究において、パターン認識をはじめとす るさまざまな応用が試みられている階層型ニューラルネットは、ネットワークの制約 のもとで非線形の多変量解析を行っていると考えられる [8,9,10,109]。従って、非線形の多変量解析に関する 考察は、ネットワークの制約を取り去った究極の目標についての示唆を与えるものと 考えることができる。

大津は、こうした観点から、変分法を用いて一般の非線形写像のもとで最適な非線形 判別分析を求め、それがパターン認識における誤り最小識別(ベイズ識別)の理論と 密接に関係していることを示した[123]。さらに、重回帰分析についてもパ ターン認識の文脈で非線形に拡張し、最小2乗判別との関連を示した[129]。 そして、これらのいずれにおいても、交差係数と呼ばれる量が重要な働きをしている ことを示した。

本章では、まず、アンケート調査などの質的データを取り扱う多変量データ解析手法 である数量化法[40,47,71,120]を非線形に 拡張する。そこでも、大津が交差係数と呼んだ2つの集合間の確率的な関係を表す統 計量の固有値問題が重要な働きをしていることがわかる。その結果に基づき、正準相 関分析[165]を含む一般の多変量データ解析手法を非線形に拡張し、よ り一般的な形で統一的な考察を試みる。さらに、従来の線形手法が究極の非線形手法 のどんな近似になっているかについても考察する。



Takio Kurita 平成14年7月3日