LMedS推定

次へ: オプティカルフローの推定への応用 上へ: ロバスト推定手法 戻る: M-estimator

LMedS推定

Rousseeuw が提案した LMedS 基準は、

$\begin{displaymath} LMedS = \mbox{min}\ \mbox{med}\ \varepsilon_i^2 \end{displaymath}$

(75)

で定義される。ここで $\mbox{med}$ は、中央値を取ることを表す。こうした評価基準が例外値に対してどれくらい強いか（例外値に対するロバストネス）を評価するためには、breakdown point と呼ばれる指標が用いられている [27,59]。それは、例外値が無い場合の結果と例外値を含む場合の結果が非常に大きくずれることなく、全データの内の何割までのデータを非常に大きな例外値に置き換えることができるかを測るものである。最小２乗基準は、ひとつの大きな例外値によって大きな影響を受けるので、その breakdown point は

であるが、LMedS 基準の breakdown point は

であり[58]、全データのうちの $50\%$ が例外値でも結果が大きくずれることがない。これは、考えられる最大の breakdown point を達成する基準である。ただし、漸近有効性（asymptotic efficiency）の観点からは、 LMedS 基準はそれほど良いとは言えない。

LMedS基準によるパラメータ推定は非線形の最適化問題となる。１次元のデータに対して位置を推定する場合には比較的効率的なアルゴリズムが知られているが[59]、多次元の場合には最適解を見つけるのはかなり難しい。そこで、準最適解をランダムサンプリングによって探索するアルゴリズムが開発されている。例えば、データに個のパラメータ $\omega_j, j=0,\ldots,F-1$ を持つ線形モデル

$\begin{displaymath} z_i = \sum_{j=1}^{F-1} \omega_j x_j(i) + \omega_0 \end{displaymath}$

(76)

を当てはめる場合を考えよう。この時、LMedS 基準は

$\begin{displaymath} LMedS = \mbox{min}\ \mbox{med}\ (y_i-z_i)^2 \end{displaymath}$

(77)

となる。この場合のランダムサンプリングを用いた推定アルゴリズムは以下のようになる。

全データから個のデータをランダムに選ぶ。
個のデータを用いてモデルのパラメータを推定する。
LMedS 基準によりそのパラメータのモデルを評価する。

以上を繰り返して、最良のパラメータを選択する。

このアルゴリズムで必要な繰り返し回数は、回のランダムサンプリングで少なくとも1個のサンプルには例外値が含まれ無い確率を考えることにより決定できる。全データ中の例外値の割合を $\epsilon$ とすると、この確率は、

$\begin{displaymath} P = 1 - \{ 1 - (1 - \epsilon)^F \}^q \end{displaymath}$

(78)

となる。例えば、 $\epsilon = 0.3$ ,

の時、この確率が

になるためのサンプリングの回数は

である。つまり、この場合には、

回以上のサンプリングが必要であることを意味している。

このアルゴリズムは、単純なランダムサンプリングによるアルゴリズムであるが、これを遺伝的アルゴリズムを使って高速化する試みも報告されている [60]。

ロバスト推定によって得られたモデルとデータとの誤差 $\varepsilon_i$ から、誤差の標準偏差は、

$\begin{displaymath} \hat{\sigma} = C \{1 + \frac{5}{n - F} \} \mbox{med} \sqrt{\varepsilon_i^2} \end{displaymath}$

(79)

のように推定できる。ここで、

は、誤差が正規分布の場合に一致させるための係数であり、また、

は、少数サンプルのための補正項である。

この標準偏差の推定値から、 $2.5 \hat{\sigma}$ よりも大きな誤差 $\vert\varepsilon_i\vert$ をもつデータを例外値として判定することができる。

このような方法で例外値を検出し、例外値を取り除いたデータに対して最小2乗法を適用すると、LMedS 推定の漸近有効性を向上させることができる。

平成14年7月19日