Regressziós technikák

Regresszió

Regresszió: folytonos értékű címke (a címkehalmaz végtelen)

Példa: autók számának, vagy életkor becslése.

Lineáris regresszió

Hipotézisfüggvény: nagyon egyszerű (lineáris) hipotézisfüggvény:

a hipotézisfüggvény paramétere, ebben az esetben az egyenes meredeksége lesz.

Költségfüggvény

Hogyan állapítjuk meg mennyire jó a becslés?

A költségfüggvénnyel:

A költségfüggvény megadja, hogy mennyire tér el a valódi címke és a becslésünk adott paraméter értékek esetén.

Lineáris regresszió esetén a költségfüggvény:

Azaz, a hipotézisfüggvény által becsült címkék és az igazi címkék különbségének a négyzete, átlagolva a mintaelemek felett: MSE (Mean Squared Error, átlagos négyzetes eltérés).

A feladat tehát:

Keressük azt az optimális paramétert (), mellyel minimális a költség, azaz a címke predikciónk átlagos négyzetes eltérése az igazi címkétől.

Grádiens módszer

Honnan tudjuk, hogy merre kell lépnünk, hogy a költség csökkenjen?

Nézzük meg merre lejt leginkább a költségfüggvény az aktuális paraméterértékben állva!

Mi adja meg meredekségét egy adott pontban?

  • a deriváltja a pontban.

Gradient descent: Iteratívan lépegetünk -val, abba az irányba, amerra a legnagyobb a lejtése a költségfüggvénynek az aktuális -ban.

repeat until convergence {
	grad := J'(θ)
	θ := θ - α * grad
}

: learning rate

Bias

Mi hiányzik?

Az eddigi modellünk túlzottan limitált. A hipotézisfüggvény egy olyan egyenes volt, amely az origón kellett, hogy átmenjen

A meredekség mellé egy konstans (bias / intercept) paramétert is bevezetünk.

Új hipotézis:

A költségfüggvény továbbra is MSE, de a hipotézis függvény megváltozott.

A költségfüggvény továbbra is kvadratikus. Mivel már két paraméterünk van, egy elliptikus paraboloid.

Hogyan válasszunk paramétereket, hogy a költség csökkenjen?

Használjuk a gradiens módszert: lépegessünk a legnagyobb meredekségű lejtés irányába.

Ezt az irányt egy adott pontban a gradiens vektor fogja megadni, melynek elemei a J költségfüggvény parciális deriváltjai az egyes paraméterek szerint.

A költségfüggvény parciális deriváltjai:

Grádiens módszer két paraméter esetén

repeat until convergence {
	grad0 := J'{θ0}(θ0, θ1)
	grad1 := J'{θ1}(θ0, θ1)
	
	θ0 := θ0 - α * grad0
	θ1 := θ1 - α * grad1	
}

{}: szerinti parciális derivatív.

Garantált-e, hogy a gradiens módszerrel megtaláljuk a lineáris regresszió optimális megoldását?

  • Megfelelően kicsi esetén igen.

Garantált-e, hogy a gradiens módszerrel megtaláljuk tetszőleges költségfüggvény globális minimumát?

  • Nem. Eljuthatunk az egyik lokális minimum pontba, de amennyiben a költségfüggvény nem konvex, akkor nem garantált, hogy ez a globális minimum lesz.

Miért pont négyzetes hibát használunk költségként?

  • Ha analitikusan szeretnénk megoldani, akkor ez egyszerűbb
  • Mivel a költségfüggvény kvadratikus, ezért a deriváltja lineáris, így a lépésméret "magától" leskálázódik, ahogy közelebb érünk az optimumhoz.

Források