Regressziós technikák
Regresszió
Regresszió: folytonos értékű címke (a címkehalmaz végtelen)
Példa: autók számának, vagy életkor becslése.
Lineáris regresszió
Hipotézisfüggvény: nagyon egyszerű (lineáris) hipotézisfüggvény:
a hipotézisfüggvény paramétere, ebben az esetben az egyenes meredeksége lesz.
Költségfüggvény
Hogyan állapítjuk meg mennyire jó a becslés?
A költségfüggvénnyel:
A költségfüggvény megadja, hogy mennyire tér el a valódi címke és a becslésünk adott paraméter értékek esetén.
Lineáris regresszió esetén a költségfüggvény:
Azaz, a hipotézisfüggvény által becsült címkék és az igazi címkék különbségének a négyzete, átlagolva a mintaelemek felett: MSE (Mean Squared Error, átlagos négyzetes eltérés).
A feladat tehát:
Keressük azt az optimális paramétert (), mellyel minimális a költség, azaz a címke predikciónk átlagos négyzetes eltérése az igazi címkétől.
Grádiens módszer
Honnan tudjuk, hogy merre kell lépnünk, hogy a költség csökkenjen?
Nézzük meg merre lejt leginkább a költségfüggvény az aktuális paraméterértékben állva!
Mi adja meg meredekségét egy adott pontban?
- a deriváltja a pontban.
Gradient descent: Iteratívan lépegetünk -val, abba az irányba, amerra a legnagyobb a lejtése a költségfüggvénynek az aktuális -ban.
repeat until convergence {
grad := J'(θ)
θ := θ - α * grad
}
: learning rate
Bias
Mi hiányzik?
Az eddigi modellünk túlzottan limitált. A hipotézisfüggvény egy olyan egyenes volt, amely az origón kellett, hogy átmenjen
A meredekség mellé egy konstans (bias / intercept) paramétert is bevezetünk.
Új hipotézis:
A költségfüggvény továbbra is MSE, de a hipotézis függvény megváltozott.
A költségfüggvény továbbra is kvadratikus. Mivel már két paraméterünk van, egy elliptikus paraboloid.
Hogyan válasszunk paramétereket, hogy a költség csökkenjen?
Használjuk a gradiens módszert: lépegessünk a legnagyobb meredekségű lejtés irányába.
Ezt az irányt egy adott pontban a gradiens vektor fogja megadni, melynek elemei a J költségfüggvény parciális deriváltjai az egyes paraméterek szerint.
A költségfüggvény parciális deriváltjai:
Grádiens módszer két paraméter esetén
repeat until convergence {
grad0 := J'{θ0}(θ0, θ1)
grad1 := J'{θ1}(θ0, θ1)
θ0 := θ0 - α * grad0
θ1 := θ1 - α * grad1
}
{}: szerinti parciális derivatív.
Garantált-e, hogy a gradiens módszerrel megtaláljuk a lineáris regresszió optimális megoldását?
- Megfelelően kicsi esetén igen.
Garantált-e, hogy a gradiens módszerrel megtaláljuk tetszőleges költségfüggvény globális minimumát?
- Nem. Eljuthatunk az egyik lokális minimum pontba, de amennyiben a költségfüggvény nem konvex, akkor nem garantált, hogy ez a globális minimum lesz.
Miért pont négyzetes hibát használunk költségként?
- Ha analitikusan szeretnénk megoldani, akkor ez egyszerűbb
- Mivel a költségfüggvény kvadratikus, ezért a deriváltja lineáris, így a lépésméret "magától" leskálázódik, ahogy közelebb érünk az optimumhoz.