多変量データ解析手法を一般の非線形変換を許すように拡張するためには、データの 背後にある確率分布に関する完全な知識が必要となる。多くの多変量解析手法は、2 つの変量(多変量測定値)間の関係を解析する手法として定式化されているので、そ れらを以下のような記号を用いて表すものとする。
まず、2つの事象の集合を
および
とする。また、 事象
および
に対して与えられる多変量測定値(ベクトル表現)を、
および
とする。これらを行列を使って書くと、
および
のようになる。
さらに、ふたつの事象の積空間
上の確率を、
![]() |
![]() |
![]() |
(1) |
![]() |
![]() |
![]() |
(2) |
![]() |
![]() |
![]() |
(3) |
![]() |
![]() |
![]() |
(4) |
![]() |
![]() |
![]() |
(5) |
![]() |
![]() |
![]() |
(6) |
![]() |
![]() |
![]() |
(7) |
多変量観測値
および
は、これらの確率分布に従って観測さ
れるものとする。従って、例えば、
の平均
および共分
散行列
は、
![]() |
![]() |
![]() |
|
![]() |
![]() |
![]() |
(8) |
以上は、事象の集合が離散的な場合であるが、事象の集合 または
が連続な集合の場合には、事象の表現
または
の確率
密度分布の存在を仮定する。例えば、
が連続集合の場合、
などの存在を仮定する。
一般に、多変量データ解析手法は、事象の集合 および
の
要素の初期表現
から、ある評価基準の下で
最適な表現
および
への変換を求めるという形で定式化される。
評価基準は、普通、表現空間
あるいは
における統計量によっ
て与えられる。ここでは、事象の表現を変換する写像を
![]() |
(9) |
![]() |
(10) |
従来の線形の多変量データ解析手法は、写像 および
をそれぞれ
もとの表現
および
に関して線形な写像に制限していると考える
ことができる。これに対して、一般に任意の非線形関数の中から
最適な写像
および
を求めるのが非線形の多変量データ解析である。
次に、事象の空間 と
の間の確率的な関係を表す量を定義してお
く。
![]() |
(11) |
![]() |
(12) |
![]() |
(13) |
![]() |
(14) |
事象の空間が連続な場合にも、同様に、これらの量は
![]() |
![]() |
![]() |
(17) |
![]() |
![]() |
![]() |
(18) |