話者認識

次へ: 本章のまとめ 上へ: 実験 戻る: Fisherのアヤメのデータの識別

話者認識

次に、ニューラルネットによる話者認識のためのネットワークの中間層のニューロン数を情報量基準を用いて決定する実験を行なった。

データは、男性5人が発声した単語 /tadaima/ に基づいて作成した。特徴量としては、音声波形を時間軸上で4区間に等分し、各区間ごとに 1/3 Oct.17chでフーリエスペクトルを計算し、それを4区間で平均したもの（17次元）を用いた。データは、時期差の影響も考慮するため10週間に渡って収集した。各週話者一人あたり4個のデータを学習用のデータ（合計200個）とし、各週話者一人あたり1個をテストデータ（合計50 個）とした。

この場合には、入力特徴ベクトルの次元は17次元であるので、入力層のユニット数は 17個である。また、出力層のユニット数は5個である。

ネットワークの候補としては、アヤメの識別のネットワークと同様に、中間層のニューロン数が1個から7個のネットワークを考えた。

**図 4.7:** 各ネットワークの学習による平均２乗誤差の推移
$\begin{figure}\begin{center} \psfig{file=wasya.eps,width=9cm}\end{center}\end{figure}$

各ネットワークに、学習データを 2000 回提示し誤差逆伝搬学習法によって学習した。各ネットワークの学習による平均２乗誤差の減少の様子を図4.7に示す。この図から学習がほぼ収束していることがわかる。

**表 4.2:** 話者認識のためのネットワークのAICとMDL
隠れ層のユニット数	1	2	3	4	5	6	7
平均二乗誤差	0.0976	0.0647	0.0015	0.0009	0.0008	0.0008	0.0007
パラメータ数	28	51	74	97	120	143	166
AIC	679.21	515.06	178.93	218.64	262.25	307.61	352.08
MDL	385.78	341.64	211.51	269.29	329.02	389.64	449.80
誤識別数	19	9	1	1	2	2	1

各ネットワークの学習後のパラメータを用いてAICおよびMDLの値を近似的に計算した。結果を表4.2に示す。AICおよび MDLPともに、中間層のニューロンが 3個のネットワークで最小になっている。実際、テストデータに対する誤識別数は中間層のニューロン数を増やしてもそれ以上減少していない。

Takio Kurita 平成14年7月3日