次に、ニューラルネットによる話者認識のためのネットワークの中間層のニューロン 数を情報量基準を用いて決定する実験を行なった。
データは、男性5人が発声した単語 /tadaima/ に基づいて作成した。特徴量としては、 音声波形を時間軸上で4区間に等分し、各区間ごとに 1/3 Oct.17chでフーリエスペク トルを計算し、それを4区間で平均したもの(17次元)を用いた。データは、時期差 の影響も考慮するため10週間に渡って収集した。各週話者一人あたり4個のデータを 学習用のデータ(合計200個)とし、各週話者一人あたり1個をテストデータ(合計50 個)とした。
この場合には、入力特徴ベクトルの次元は17次元であるので、入力層のユニット数は 17個である。また、出力層のユニット数は5個である。
ネットワークの候補としては、アヤメの識別のネットワークと同様に、中間層のニュー ロン数が1個から7個のネットワークを考えた。
各ネットワークに、学習データを 2000 回提示し誤差逆伝搬学習法によって学習した。各 ネットワークの学習による平均2乗誤差の減少の様子を図4.7に示す。 この図から学習がほぼ収束していることがわかる。
隠れ層のユニット数 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
平均二乗誤差 | 0.0976 | 0.0647 | 0.0015 | 0.0009 | 0.0008 | 0.0008 | 0.0007 |
パラメータ数 | 28 | 51 | 74 | 97 | 120 | 143 | 166 |
AIC | 679.21 | 515.06 | 178.93 | 218.64 | 262.25 | 307.61 | 352.08 |
MDL | 385.78 | 341.64 | 211.51 | 269.29 | 329.02 | 389.64 | 449.80 |
誤識別数 | 19 | 9 | 1 | 1 | 2 | 2 | 1 |
各ネットワークの学習後のパラメータを用いてAICおよびMDLの値を近似的に計算した。 結果を表4.2に示す。AICおよび MDLPともに、中間層のニューロンが 3個のネットワークで最小になっている。実際、テストデータに対する誤識別数は中 間層のニューロン数を増やしてもそれ以上減少していない。