next up previous
次へ: 本章のまとめ 上へ: 実験 戻る: Fisherのアヤメのデータの識別

話者認識

次に、ニューラルネットによる話者認識のためのネットワークの中間層のニューロン 数を情報量基準を用いて決定する実験を行なった。

データは、男性5人が発声した単語 /tadaima/ に基づいて作成した。特徴量としては、 音声波形を時間軸上で4区間に等分し、各区間ごとに 1/3 Oct.17chでフーリエスペク トルを計算し、それを4区間で平均したもの(17次元)を用いた。データは、時期差 の影響も考慮するため10週間に渡って収集した。各週話者一人あたり4個のデータを 学習用のデータ(合計200個)とし、各週話者一人あたり1個をテストデータ(合計50 個)とした。

この場合には、入力特徴ベクトルの次元は17次元であるので、入力層のユニット数は 17個である。また、出力層のユニット数は5個である。

ネットワークの候補としては、アヤメの識別のネットワークと同様に、中間層のニュー ロン数が1個から7個のネットワークを考えた。

図 4.7: 各ネットワークの学習による平均2乗誤差の推移
\begin{figure}\begin{center}
\psfig{file=wasya.eps,width=9cm}\end{center}\end{figure}

各ネットワークに、学習データを 2000 回提示し誤差逆伝搬学習法によって学習した。各 ネットワークの学習による平均2乗誤差の減少の様子を図4.7に示す。 この図から学習がほぼ収束していることがわかる。


表 4.2: 話者認識のためのネットワークのAICとMDL
隠れ層のユニット数 1 2 3 4 5 6 7
平均二乗誤差 0.0976 0.0647 0.0015 0.0009 0.0008 0.0008 0.0007
パラメータ数 28 51 74 97 120 143 166
AIC 679.21 515.06 178.93 218.64 262.25 307.61 352.08
MDL 385.78 341.64 211.51 269.29 329.02 389.64 449.80
誤識別数 19 9 1 1 2 2 1

各ネットワークの学習後のパラメータを用いてAICおよびMDLの値を近似的に計算した。 結果を表4.2に示す。AICおよび MDLPともに、中間層のニューロンが 3個のネットワークで最小になっている。実際、テストデータに対する誤識別数は中 間層のニューロン数を増やしてもそれ以上減少していない。



Takio Kurita 平成14年7月3日