next up previous
次へ: 固有顔による顔画像の認識 上へ: 主成分分析と主成分スコア 戻る: 主成分分析と主成分スコア

直線の当てはめ

実際の画像処理や画像理解においては、画像から必要な情報を取り出すために、 エッジ抽出等によって得られた平面上の点の集合に直線や曲線を当てはめる等 の方法が取られることが多い。

今、平面上のデータ点の集合を $S = \{(x_i,y_i)\}_{i=1}^{N}$ とする。こ こで、各点に付けられた添字の順番に意味はないものとする。

図 8: 誤差の測り方
\begin{figure}\begin{center}
\epsfile{file=reg_fit.eps,width=30mm} \hspace*{5mm}...
... 回帰分析での誤差 \hspace*{5mm} (b) 主成分分析での誤差
\end{center} \end{figure}

多変量データ解析では、このようなデータ点集合に直線 $y = a x + b$ を当 てはめる場合、重回帰分析を用いるのが普通である。つまり、データ点から直 線への $y$ 軸に平行な誤差の2乗の平均、すなわち、

\begin{displaymath}
\frac{1}{N} \sum_{i=1}^N (y_i - a x_i + b)^2
\end{displaymath} (35)

が最も小さくなるように直線を当てはめる(図8(a))。し かし、この方法は、変量 $x$ の線形式で変量 $y$ を予測することを意図して いる。したがって、予測の方向を入れかえて $y$ から $x$ を予測する場合の 回帰直線は、$x$ から $y$ を予測する場合と同じにはならない。しかし、画 像処理への応用では、$x$$y$ とは、対等に扱わなければならないことが 多く、こうした方向性は好ましくないものと考えられる。主成分分析を用いる と$x$$y$ を対等に扱い、図8(b)のように誤差をデー タ点から直線までの最短距離として評価することができる。

一般に、平面上の直線は、方向ベクトル $\mbox{\boldmath$a$} = (D_x,D_y)^T$ (ただし、 $\mbox{\boldmath$a$}^T \mbox{\boldmath$a$} = 1$)を用いて、

\begin{displaymath}
\mbox{\boldmath$r$}(t) = \mbox{\boldmath$r$}_0 + \mbox{\boldmath$a$} t
\end{displaymath} (36)

のように表せる。ここで、 $\mbox{\boldmath$r$}(t) = (x(t),y(t))^T$ および $\mbox{\boldmath$r$}_0 =
(x_0,y_0)^T$ である。

このとき、データ点 $\mbox{\boldmath$r$}_i=(x_i,y_i)^T$ からこの直線上の点 $\mbox{\boldmath$r$}(t)$ までの2乗距離は

\begin{displaymath}
d_i^2(t;\mbox{\boldmath$a$},\mbox{\boldmath$r$}_0) =
t^2 +...
...h$r$}_i) t + (\mbox{\boldmath$r$}_0 - \mbox{\boldmath$r$}_i)^2
\end{displaymath} (37)

で与えられる。直線を固定すると、この距離が最小となるのは、データ点から 直線に垂直な直線を下ろした場合であり、データ点からこの直線までの最短距 離の2乗は、
\begin{displaymath}
d_i^2(\mbox{\boldmath$a$},\mbox{\boldmath$r$}_0) = (\mbox{\...
...{\boldmath$r$}_i - \mbox{\boldmath$r$}_0)^T\mbox{\boldmath$a$}
\end{displaymath} (38)

となる。したがって、このようにして測ったデータ点の集合から直線への平均 2乗誤差は、
\begin{displaymath}
\varepsilon^2(\mbox{\boldmath$a$},\mbox{\boldmath$r$}_0) = ...
... \sum_{i=1}^N d_i^2(\mbox{\boldmath$a$},\mbox{\boldmath$r$}_0)
\end{displaymath} (39)

と表される。方向ベクトルに関する制約条件のもとで、この平均2乗誤差を最 小とする直線のパラメータ $\mbox{\boldmath$a$}$ および $\mbox{\boldmath$r$}_0$ を求める問題は、ラ グランジェ乗数を $\lambda$ として、評価関数
\begin{displaymath}
J(\mbox{\boldmath$a$},\mbox{\boldmath$r$}_0)=\varepsilon^2(...
...$}_0) + \lambda (\mbox{\boldmath$a$}'\mbox{\boldmath$a$}
- 1)
\end{displaymath} (40)

を最小化する問題に帰着される。最適なパラメータ $\mbox{\boldmath$a$}$ および $\mbox{\boldmath$r$}_0$ は、
$\displaystyle \mbox{\boldmath$r$}_0$ $\textstyle =$ $\displaystyle \mbox{\boldmath$\mu$} = \frac{1}{N} \sum_{i=1}^N \mbox{\boldmath$r$}_i$  
$\displaystyle C \mbox{\boldmath$a$}$ $\textstyle =$ $\displaystyle \lambda \mbox{\boldmath$a$}$ (41)

となる。ただし、
\begin{displaymath}
C = \frac{1}{N} \sum_{i=1}^N (\mbox{\boldmath$r$}_i - \mbox...
...ldmath$\mu$})(\mbox{\boldmath$r$}_i - \mbox{\boldmath$\mu$})^T
\end{displaymath} (42)

はデータ点集合の分散共分散行列である。つまり、式 (42)は、主成分分析の固有値問題と全く同じとなる。

このとき達成される最小2乗誤差は、

\begin{displaymath}
\varepsilon^2 = \mbox{tr}\, C - \lambda
\end{displaymath} (43)

となる。


next up previous
次へ: 固有顔による顔画像の認識 上へ: 主成分分析と主成分スコア 戻る: 主成分分析と主成分スコア
平成14年7月19日