Az előző előadáson leírt neuronokat rétegekbe rendezzük, így egy komplexebb modell hozva létre.
Θ = { W 1 , b 1 , W 2 , b 2 , … } : súlymátrixok és bias vektorok halmaza.
W k ∈ R S k × S k − 1
b k ∈ R S k
ahol S k a k . rétegben található neuronok száma.
h ( x ) = g 2 ( W 2 g 1 ( W 1 x + b 1 ) + b 2 ) = y ^ ≈ y
Költségfüggvények egyelőre maradnak.
Klasszifikáció: logistic loss
Regresszió: MSE
A g 1 és g 2 aktivációs függvények fontosak, mert nemlinearitást adnak a hipotézisfüggvényhez, amely lehetővé teszi a tanulást. (különben nem nől a kifelyező erő, csak bonyolultabb lineáris regressziót kapunk)
Mit tanul egyetlen neuron?
Egyetlen lineáris döntési felületet (hiszen logisztikus regresszióról van szó)
A neuronháló ezen lineáris döntési felületek valamilyen kombinációját tanulja
Ebben az esetben az y nem egy skalár, hanem egy vektor.
Multiclass klasszifikációnál használjuk a softmax függvényt az utolsó rétegen