10.3. Adattömörítés Hebb tanuláson alapuló hálózatokkal, PCA, KLT

A neurális hálózatok egyik fontos alkalmazási területe az adattömörítés. Az adattömörítést általában az adatok hatékonyabb reprezentációja céljából végezzük, de alkalmazásával az is lehet a célunk, hogy az eredeti adatokból a későbbi feldolgozás szempontjából lényeges információt kiemeljük, és a lényegtelent elhagyjuk. Az adattömörítést ekkor lényegkiemelés érdekében végezzük. Az adattömörítés − többek között − elvégezhető olyan − lineáris vagy nemlineáris − transzformációk segítségével, amelyek egy adott, többdimenziós térbeli vektort kisebb dimenziós altérbe transzformálnak (vetítenek). Az ilyen típusú feladatoknál két nehézséggel találjuk magunkat szemben. Először is meg kell találnunk azt a kisebb dimenziós alteret, amelyben az eredeti vektor hatékonyan ábrázolható. Másodszor, ha a megfelelő alteret megtaláltuk el kell végezzük a bemeneti vektorok transzformációját.

A hatékony ábrázolás az alkalmazási körtől függően különbözőképpen definiálható. Adattömörítésnél törekedhetünk arra, hogy az altérbe való vetítés során a vektor reprezentációnál a közelítő ábrázolásból adódó hiba minél kisebb legyen. Ebben a megközelítésben definiálni kell valamilyen hibakritériumot, pl. átlagos négyzetes hibát, majd egy olyan, az eredeti dimenziószámnál kisebb dimenziós altér megtalálása a feladat, amelybe vetítve a kiinduló vektort a kritérium szerint értelmezett reprezentációs hiba a lehető legkisebb lesz. Más feladatnál, pl. felismerési vagy osztályozási feladatot megelőző lényegkiemelésnél a reprezentáció akkor tekinthető hatékonynak, ha az altér dimenziója minél kisebb, miközben a közelítő reprezentációban mindazon információ megmarad, amely a felismeréshez, osztályozáshoz elegendő. Ebben az esetben tehát nem követelmény a kiinduló vektor minél kisebb hibájú reprezentálása, csupán arra van szükség, hogy olyan kisebb dimenziós ábrázolást kapjunk, amely a feladat szempontjából szükséges lényeges információkat megtartja.

E feladatok megoldására univerzális eljárás nem létezik. Általában a megfelelő altér feladat- és adatfüggő, tehát a tényleges feladattól függetlenül előre nem meghatározható, és mind az altér meghatározása, mind a transzformáció elvégzése meglehetősen számításigényes. Éppen ezért jelentős eredmény, hogy mind az ellenőrzött, mind a nemellenőrzött tanítású hálózatok körében találunk olyan hálókat, melyek hatékony eszköznek bizonyultak az adattömörítési feladatok megoldására.

A lineáris adattömörítő eljárások között kitüntetett szerepe van a Karhunen-Loève (KL) transzformációnak (KLT), amely az eredeti jeltér olyan ortogonális bázisrendszerét és az eredeti vektorok ezen bázisrendszer szerinti transzformáltját határozza meg, amelyben az egyes bázisvektorok (bázisfüggvények) fontossága különböző. Egy N-dimenziós térből kiindulva az új bázisvektorok közül kiválasztható a legfontosabb M < N bázisvektor, amelyek egy M-dimenziós alteret határoznak meg. Egy vektornak ezen altérbe eső vetülete az eredeti vektorok közelítő reprezentációját jelenti, ahol a közelítés hibája átlagos négyzetes értelemben a legkisebb, vagyis a KLT a közelítő reprezentáció szempontjából a lineáris transzformációk között optimális bázisrendszert határoz meg.

10.5. ábra - A Karhunen-Loève transzformáció

A KL transzformáció működését illusztrálja a 10.5 ábra. A transzformáció feladata az eredeti x₁, x₂ koordinátarendszerben ábrázolt adatokból kiindulva az x'₁,x'₂ koordinátarendszer megtalálása, majd az adatoknak ebben az új koordinátarendszerben való megadása. Látható, hogy míg az eredeti koordinátarendszerben a két komponens fontossága hasonló, addig az új koordinátarendszerben a két komponens szerepe jelentősen eltér: x'₁mentén jóval nagyobb tartományban szóródnak a mintapontok, mint x'₂mentén, tehát az egyes mintapontok közötti különbséget az x'₁koordináták jobban tükrözik. Amennyiben az adatok egydimenziós, közelítő reprezentációját kívánjuk előállítani célszerűen x'₁-t kell meghagynunk és x'₂-t eldobnunk; így lesz a közelítés hibája minimális. A KL transzformáció szokásos elnevezése a matematikai statisztikában faktoranalízis vagy főkomponens analízis (principal component analysis, PCA) . Egy x vektor x'₁ésx'₂ irányú vetületeit főkomponenseknek is szokás nevezni. Közelítő reprezentációnál a főkomponensek közül csak a legfontosabbakat tartjuk meg, a többit eldobjuk. Az ábrán látható esetben ez azt jelenti, hogy egy x vektor legfontosabb főkomponense az x'₁ tengely irányú vetülete.

Az alábbiakban előbb bemutatjuk a KLT származtatását, majd olyan neurális hálózatok felépítésével, működésével és tanításával foglalkozunk, melyek a KLT megvalósítására alkalmasak.

10.3.1. A KL transzformáció és optimalitása

A KL transzformáció alapfeladata a következő: keressük meg azt az ortogonális (ortonormált) bázisrendszert, amely átlagos négyzetes értelemben optimális reprezentációt ad, majd e bázisrendszer segítségével végezzük el a transzformációt. Az eddigiekhez hasonlóan diszkrét reprezentációval dolgozunk, tehát a bemeneti jelet az x N-dimenziós vektorok képviselik, a transzformációt pedig egy T mátrixszal adhatjuk meg.

E szerint a transzformált jel (y) előállítása:

$y = T x$ , (10.19)

ahol transzformációs mátrix a $φ_{i}$ bázisvektorokból épül fel:

$T = {[φ_{1}, φ_{2}, ..., φ_{N}]}^{T}$ . (10.20)

Mivel bázisrendszerünk ortonormált, ezért:

$φ_{i}^{T} φ_{j} = δ_{i j}$ , ebből adódóan $T^{T} T = I, vagyis T^{T} = T^{- 1}$ . (10.21)

Feladatunk legyen a következő: x közelítő reprezentációját ( $\hat{x}$ ) akarjuk előállítani úgy, hogy a közelítés átlagos négyzetes hibája minimális legyen. Mivel x előállítható, mint a $φ_{i}$ bázisvektorok lineáris kombinációja

$x = \sum_{i = 1}^{N} y_{i} φ_{i}$ (10.22)

ahol $y_{i}$ a $φ_{i}$ irányú komponens nagysága, és mivel a közelítő reprezentáció

$\hat{x} = \sum_{i = 1}^{M} y_{i} φ_{i} M \leq N$ , (10.23)

az átlagos négyzetes hiba felírható az alábbi formában:

$ε^{2} = E {{‖ x - \hat{x} ‖}^{2}} = E {{‖ \sum_{i = 1}^{N} y_{i} φ_{i} - \sum_{i = 1}^{M} y_{i} φ_{i} ‖}^{2}} = \sum_{i = M + 1}^{N} E {{(y_{i})}^{2}}$ . (10.24)

Továbbá, mivel

$y_{i} = φ_{i}^{T} x$ (10.25)

a következő összefüggés is az átlagos négyzetes hibát adja meg:

$ε^{2} = \sum_{i = M + 1}^{N} E {(φ_{i}^{T} x) (x^{T} φ_{i})} = \sum_{i = M + 1}^{N} φ_{i}^{T} E {x x^{T}} φ_{i} = \sum_{i = M + 1}^{N} φ_{i}^{T} R_{x x} φ_{i}$ , (10.26)

ahol $R_{x x}$ az x bemenet autokorrelációs mátrixa. A továbbiakban feltételezzük, hogy E{x}=0, ekkor $R_{x x}$ helyett $C_{x x}$ , vagyis x kovarianciamátrixa szerepel az átlagos négyzetes hiba kifejezésében.

Ezekután keressük meg azt a $φ_{i}$ bázist, amely mellett $ε^{2}$ minimális lesz. Mivel a $φ_{i}^{T} φ_{i} = 1$ feltételt be kell tartanunk, feltételes szélsőértéket kell keresnünk. A Lagrange multiplikátoros módszert alkalmazva

$\hat{ε} = ε^{2} - \sum_{i = M + 1}^{N} λ_{i} (φ_{i}^{T} φ_{i} - 1) = \sum_{i = M + 1}^{N} [φ_{i}^{T} C_{x x} φ_{i} - λ_{i} (φ_{i}^{T} φ_{i} - 1)]$ , (10.27)

ahol $λ_{i}$ -k, (i=M+1,..., N) a Lagrange multiplikátorok. A (10.27) összefüggés $φ_{i}$ szerinti szélsőértékét keressük, vagyis a

$\frac{\partial \hat{ε}}{\partial φ_{i}} = \sum_{i = M + 1}^{N} [2 C_{x x} φ_{i} - 2 λ_{i} φ_{i}] = 0$ (10.28)

feltételt kell kielégítenünk. Ehhez az szükséges, hogy teljesüljön a

$C_{x x} φ_{i} = λ_{i} φ_{i}$ , (10.29)

összefüggés, vagyis a KLT bázisrendszerét alkotó $φ_{i}$ vektorok a bemeneti jel autokorrelációs (autokovariancia) mátrixának sajátvektorai legyenek. A közelítő, M-dimenziós reprezentáció esetén elkövetett hiba ilyenkor

$ε^{2} = \sum_{i = M + 1}^{N} φ_{i}^{T} R_{x x} φ_{i} = \sum_{i = M + 1}^{N} φ_{i}^{T} λ_{i} φ_{i} = \sum_{i = M + 1}^{N} λ_{i}$ (10.30)

ahol a $λ_{i}$ értékek az autokovariancia mátrix sajátértékei.

Minimális hibát nyilvánvalóan akkor fogunk elkövetni, ha a (10.30) összefüggésben a $λ_{i}$ sajátértékek (i=M+1,...,N) a mátrix legkisebb sajátértékei, vagyis a közelítő, M-dimenziós reprezentációnál az autkovariancia mátrix első M legnagyobb sajátértékéhez tartozó sajátvektort, mint M-dimenziós bázist használjuk fel. A bemeneti jel ezen vektorok irányába eső vetületei lesznek a főkomponensek (innen ered a főkomponenst analízis elnevezés). Megjegyezzük, hogy a KL transzformáció korrelálatlan komponenseket eredményez, vagyis a transzformált jel autokovariancia mátrixa diagonál mátrix, melynek főátlójában a $λ_{i}$ sajátértékek vannak.

A KLT tehát egy kétlépéses eljárás: először a bemeneti jel autokorrelációs (autokovariancia) mátrixát, és ennek sajátvektorait és sajátértékeit kell meghatározni, majd ki kell választani a legnagyobb M sajátértéknek megfelelő sajátvektort, amelyek a megfelelő altér bázisait képezik. A bázisrendszer ismeretében lehet elvégezni második lépésként a jel transzformációját. Minthogy ez az eljárás meglehetősen összetett (mind a sajátértékek és sajátvektorok meghatározása, mind a későbbi transzformáció elvégzése számításigényes feladat), fontos eredmény, hogy léteznek olyan neurális hálózatok, amelyek e feladatok megoldására alkalmasak. A KLT-t megvalósító neurális hálózatokat az irodalomban PCA hálózatoknak nevezik. E hálózatok a következőkben bemutatásra kerülő Oja szabályon alapulnak.

10.3.2. Az Oja szabály, a legnagyobb sajátértéknek megfelelő sajátvektor meghatározása

A bementi jel legfontosabb főkomponensének (az autokovariancia mátrix legnagyobb sajátértékéhez tartozó sajátvektor irányába eső jel-vetületnek) meghatározására Erkki Oja javasolt egy, a Hebb tanulásonalapuló hálót [Oja82].

A háló egy egyszerű, lineáris, előrecsatolt hálózat, amely legegyszerűbb formájában tulajdonképpen egyetlen, lineáris kombinációt megvalósító processzáló elem. Az Oja háló felépítésében tehát megegyezik a 10.1 ábrán bemutatott egyszerű lineáris neuronnal. Az Oja háló a bemeneti N-dimenziós vektort vetíti a kimeneti egydimenziós térbe. E háló specialitását nem is a felépítése, hanem a tanulási eljárás adja. A súlyok meghatározására a Hebb tanulást, ill. annak módosított változatát alkalmazzuk.

Vizsgáljuk meg, hogy mit eredményez a Hebb tanulás a hálózatnál. Bemenetként N-dimenziós véletlen vektorokat használunk. Megmutatható [Oja82], hogy a hálózat a tanulási szabály alkalmazásával valamilyen egyensúlyi helyzet elérésére törekszik. Ez az egyensúlyi helyzet akkor áll be, ha a súlyvektor a bemeneti vektorok autokorrelációs mátrixának egy sajátvektora lesz. Stabil állapot azonban csak akkor érhető el, ha ez a sajátvektor a legnagyobb sajátértékhez tartozó sajátvektor. Vagyis a hálózat kimenetén a bemenet legfontosabb főkomponensét kapjuk, ami a bementi vektorok legfontosabb sajátvektor irányú vetülete.

A Hebb tanulás önmagában azt eredményezi, hogy a súlyvektorok a tanulás során minden határon túl növekedhetnek. A növekedésnek határt kell szabni, ami normalizálás útján érhető el. A normalizálás biztosítható, ha a Hebb szabályt az alábbiak szerint módosítjuk: legyen a tanulási szabály a következő:

$Δ w_{i} = μ y (x_{i} - y w_{i})$ , (10.31)

vagyis egészítsük ki a Hebb tanulási szabályt egy taggal. Az Oja szabály egy olyan w súlyvektorhoz konvergál, amelynek a tulajdonságai az alábbiak:

• a w súlyvektor az R autokorrelációs mátrix legnagyobb sajátértékének megfelelő sajátvektor irányú vektor (a továbbiakban az egyszerűség kedvéért a bemenet autokorrelációs mátrixának jelölésére $R_{x x}$ helyett R-et használunk).

• a súlyvektor normalizált: $‖ w ‖ = 1$ ,

• a w irány olyan, hogy a bemenetnek ebbe az irányba eső vetületének lesz a legnagyobb a varianciája, vagyis a kimenet (y) varianciája ( $E {y^{2}}$ ) akkor lesz a legnagyobb, ha y a bemenet w irányú vetületének a hossza. A variancia:

$E {y^{2}} = w^{T} E {x x^{T}} w = w^{T} R w$ . (10.32)

Egyensúlyi helyzetben

$E {Δ w_{i}} = E {μ y (x_{i} - y w_{i})} = 0$ , (10.33)

vagy vektorosan felírva:

$E {Δ w} = R w - (w^{T} R w) w = 0$ . (10.34)

Tehát egyensúlyi helyzetben a súlyvektornak ki kell elégítenie az

$R w = λ w$ (10.35)

összefüggést, ahol

$λ = w^{T} R w = w^{T} λ w = λ {‖ w ‖}^{2}$ (10.36)

A (10.35) összefüggés mutatja, hogy egyensúlyi állapotban w az R sajátvektora kell legyen, továbbá, ha $‖ w ‖$ =1, akkor λ a megfelelő sajátérték.

Hogy az Oja szabály valóban a Hebb szabály normalizált változata, az alábbiak szerint látható be. Az eredeti Hebb szabály szerint a súlymódosítás:

$\tilde{w} (k + 1) = w (k) + μ x (k) y (k)$ , (10.37)

ahol most $\tilde{w} (k + 1)$ nem normalizált. Normalizáljuk a módosított súlyvektort:

$w (k + 1) = \frac{\tilde{w} (k + 1)}{‖ \tilde{w} (k + 1) ‖} = \tilde{w} (k + 1) {‖ \tilde{w} (k + 1) ‖}^{- 1}$ . (10.38)

${‖ \tilde{w} (k + 1) ‖}^{- 1}$ meghatározásához írjuk fel ${‖ \tilde{w} (k + 1) ‖}^{2}$ -et, majd ennek (-1/2)-edik hatványát fejtsük Taylor sorba μ=0 környezetében.

$\begin{array}{l} {‖ \tilde{w} (k + 1) ‖}^{2} = {‖ w (k) ‖}^{2} + 2 μ \tilde{w} {(k)}^{T} x (k) y (k) + O (μ^{2}) \\ = {‖ w (k) ‖}^{2} + 2 μ {[y (k)]}^{2} + O (μ^{2}) \end{array}$ (10.39)

Figyelembe véve, hogy ${‖ w (k) ‖}^{2} = 1$ , vagyis hogy az előző lépésben a súlyvektor már normalizált, a következőt kapjuk:

${‖ \tilde{w} (k + 1) ‖}^{- 1} = 1 - μ y^{2} (k) + O (μ^{2})$ , (10.40)

Felhasználva a (10.37), (10.38) és (10.40) összefüggéseket és a μ-ben magasabbrendű tagokat elhanyagolva:

$\begin{array}{l} w (k + 1) = [w (k) + μ x (k) y (k)] [1 - μ y^{2} (k) + O (μ^{2})] \\ ≅ w (k) + μ y (k) [x (k) - w (k) y (k)] \end{array}$ , (10.41)

ami megfelel (10.31)-nek.

Fentiekben megmutattuk, hogy az Oja szabály alapján végzett tanulás eredményeképp − feltéve, hogy a tanuló eljárás konvergens (a konvergencia tényét azonban nem bizonyítottuk) − a súlyvektor egy λ sajátértékhez tartozó sajátvektorhoz tart. Azt azonban még meg kell mutatni, hogy λ egyben a legnagyobb sajátérték, vagyis $λ_{max}$ .

Ehhez tételezzük fel, hogy w az R valamelyik sajátvektorához, $φ_{i}$ -höz áll közel. Vizsgáljuk meg, hogyan alakul a tanulás során a súlyvektor változása, tekintsük a súlyvektorváltozások várható értékét $E {Δ w}$ -t. Minthogy a súlyvektor az egyik sajátvektorhoz áll közel: $w = φ_{i} + e$ és feltéve, hogy normalizált sajátvektorokkal dolgozunk, vagyis $‖ φ_{i} ‖ = 1$ ,

$E {Δ w} = E {e} = R e - 2 λ_{i} (e^{T} φ_{i}) φ_{i} - λ_{i} e + O (e^{2})$ , (10.42)

ahol $λ_{i}$ a $φ_{i}$ sajátvektorhoz tartozó sajátérték.

Annak eldöntésére, hogy a súlyvektor melyik sajátértékhez tartozó sajátvektorhoz tart, vegyük a súlyvektorváltozás várhatóértékének egy másik normalizált sajátvektorra, $φ_{j}$ -re vett vetületét és hanyagoljuk el az O(e²) tagot.

${(φ_{j})}^{T} E {e} = λ_{j} {(φ_{j})}^{T} e - 2 λ_{i} (e^{T} φ_{i}) δ_{i j} - λ_{i} {(φ_{j})}^{T} e = (λ_{j} - λ_{i}^{} - 2 λ_{i} δ_{i j}) {(φ_{j})}^{T} e$ (10.43)

Látható, hogy ez a vetület csökken, ha $λ_{i}$ a nagyobb, és növekszik, ha $λ_{j}$ a nagyobb sajátérték. Tehát ha $λ_{j}$ > $λ_{i}$ , akkor a súlyvektor a nagyobb sajátértéknek megfelelő sajátvektor irányába fordul be.

Az Oja algoritmus, mint szélsőérték-kereső eljárás

Az Oja algoritmus a fentiektől eltérően szélsőérték-kereső eljárás eredményeként is származtatható, minthogy a bemenő sztochasztikus vektorfolyamat mintáinak a legnagyobb sajátvektor irányában vett vetülete várható értékben maximumot kell adjon. Keressük tehát $f (w) = E {y^{2}}$ maximumát w függvényében.

$f (w) = \frac{E {y^{2}}}{w^{T} w} = \frac{w^{T} R w}{w^{T} w}$ (10.44)

Felírva a deriváltat és figyelembe véve, hogy $w^{T} w = 1$ adódik, hogy

$\nabla f (w) = 2 R w - (w^{T} R w) 2 w$ . (10.45)

Ha figyelembe vesszük, hogy $R = E {x x^{T}}$

$\begin{array}{l} \nabla f (w) = 2 E {x x^{T}} w - 2 E {w^{T} x x^{T} w} w \\ = 2 E {x y} - 2 E {y^{2}} w \end{array}$ , (10.46)

továbbá, ha az LMS algoritmushoz hasonlóan a pillanatnyi gradiens alapján számolunk, vagyis a várhatóérték-képzést nem végezzük el, akkor:

$\nabla f (w) = 2 x y - 2 y^{2} w$ , (10.47)

ami az Oja szabályt adja. Az Oja szabály (10.47) összefüggése egy sztochasztikus gradiens algoritmus, mivel a gradiens számításnál a várhatóérték-képzést elhagyjuk.

Megjegyezzük, hogy az (10.44) összefüggést Rayleigh hányadosnak is nevezik [Gol96b], mely, ha w az R mátrix egy sajátvektora, a hányados a megfelelő sajátértéket adja. Ebből is következik, hogy (10.44) w szerinti maximuma a legnagyobb, minimuma a legkisebb sajátértéket eredményezi.

Összefoglalva, megállapítható, hogy az Oja hálózat a módosított Hebb tanulással, a legnagyobb sajátértéknek megfelelő sajátvektort alakítja ki súlyvektorként, amennyiben a tanulási szabály konvergens. A konvergencia bizonyítható, azonban a bizonyítás menete bonyolult és az eljárás lényegének megértéséhez nem járul hozzá, ezért nem mutatjuk be. A bizonyítás a megfelelő irodalomban [Oja82] megtalálható.

10.3.3. Főkomponens- és altér hálózatok

A különböző alkalmazásokban a legfontosabb sajátvektornak és az ebbe az irányba eső főkomponensnek a meghatározása általában nem elegendő. Olyan hálózatot szeretnénk kapni, amely N-dimenziós bemenetből kiindulva az M legfontosabb sajátvektor (M ≤ N) meghatározására képes.

Az Oja hálózatot, illetve az Oja szabályt többféleképpen módosították, melynek eredményeképpen létrejött hálózatok alkalmasak a teljeskörű főkomponens analízisre, vagyis képesek a bemeneti jel KL transzformáltjának meghatározására. Ezeket a hálózatokat főkomponens hálózatoknak (principal component networks) nevezzük.

Az Oja hálózaton alapuló hálózatok egy másik csoportja, amely csoport tagjai − bár nem a tényleges főkomponenseket, vagyis a legfontosabb sajátvektorok irányába eső vetületeket határozzák meg − a főkomponens analízissel rokon eredményre vezetnek. Adattömörítésnél ugyanis nincs feltétlenül szükség magukra a főirányokra, tehát a legfontosabb sajátvektorokra, sokszor elegendő, ha csak azt az alteret és ebbe az altérbe eső vetületet határozzuk meg, amelyet az első M legfontosabb sajátvektor feszít ki. Az alteret nemcsak a sajátvektorok határozzák meg, hanem bármely bázisa. Azokat a hálózatokat, amelyek az alteret és a bemeneti vektorok altérbe eső vetületeit meghatározzák, de a sajátvektorokat nem, altér hálózatoknak (subspace networks) nevezzük. Az alábbiakban előbb egy altér hálózatot ismertetünk, majd az eredeti Oja hálózat olyan módosításait vizsgáljuk, amelyek a tényleges főkomponensek meghatározását eredményező hálózatokra vezetnek.

Oja altér hálózat

Az Oja altér hálózat az Oja algoritmussal tanított elemi neuron kiterjesztése olyan többkimenetű hálózattá, amely nem a legfontosabb főkomponens meghatározását végzi, hanem az első M sajátvektor által kifeszített altérbe vetít. A hálózat tehát átlagos négyzetes értelemben minimális hibájú közelítést eredményez. Minimális átlagos négyzetes eltérést biztosító megoldást kapunk, ha az eredeti Oja szabályt egy M-dimenziós y kimeneti vektorra alkalmazzuk. Az eredmény az Oja általánosított szabály [Oja83]:

$Δ W = μ [W x x^{T} - (W x x^{T} W^{T}) W]$ , (10.48)

ahol $W = {[w_{1}, w_{2},..., w_{M}]}^{T}$ az M-kimenetű háló súlyvektoraiból, mint sorvektorokból képezett mátrix.

Az Oja altér hálózat egy N-bemenetű−M-kimenetű hálózat, amely egyetlen, lineáris neuronokbólfelépülő rétegből áll. Mivel az Oja altér háló súlyvektorai nem a sajátvektorokhoz konvergálnak, hanem a sajátvektorok által kifeszített tér egy bázisához, az általánosított Oja szabályt Oja altér szabálynak is szokás nevezni.

Az Oja altér hálózaton kívül egyéb, kisebb-nagyobb mértékben eltérő felépítésű altér hálózatot publikáltak (pl. [Föl89]). A Földiák háló az előrecsatoló súlyokon kívül a neuronok között szimmetrikus oldalirányú súlyozott kapcsolatokat is használ. Az előrecsatoló súlyokat a Hebb szabállyal, az oldalirányú kapcsolatok súlyait pedig az anti-Hebb szabállyal tanítja. Bizonyítható, hogy az előrecsatoló súlyvektorok itt is olyan vektorokhoz konvergálnak, melyek a megfelelő számú legfontosabb sajátvektor által kifeszített tér egy bázisát képezik. Ez, illetve egyéb altér háló változatok lényegi újdonságot – különösen a műszaki alkalmazási lehetőségeket tekintve – nem hoznak, ezért a részletesebb bemutatásukra nem térünk ki.

Főkomponens hálók

Az alábbiakban a valódi főkomponensek meghatározására alkalmas két hálózatot mutatunk be. E hálózatok a processzáló elemek számának megfelelő számú sajátvektort és a bemeneti vektorok ezen sajátvektor irányokba eső vetületeit határozzák meg olyan módon, hogy M processzáló elem esetén az első M legnagyobb sajátértéknek megfelelő sajátvektort és a hozzájuk tartozó vetületeket szolgáltatják. A két eljárás – bár kissé eltérő architektúrával rendelkeznek és a tanulási szabályaik sem azonosak – hasonló elveken alapul: mindkettő az eredeti Oja szabályt kombinálja a Gram-Schmidt ortogonalizálási eljárással.

A Sanger algoritmus (Generalized Hebbian Algorithm, GHA)

A Sanger hálózat egy N-bemenetű, M ≤ N kimenetű lineáris előrecsatolt hálózat, amelynek első kimenete a legfontosabb főkomponenst az Oja szabály szerint határozza meg. Az első neuronnak a súlyvektora a legnagyobb sajátértékhez tartozó sajátvektor. A további neuronok szintén az Oja szabályt alkalmazzák, azonban az eredeti bemenőjeltől eltérő bemenetekre. Az eltérő bemeneteket Gram-Schmidt ortogonalizálással állítjuk elő. Az eredeti bemenőjelből kivonjuk a már előállított főkomponenseket és az így kapott jelre alkalmazzuk az Oja szabályt.

Nyilvánvaló, hogy ha a bemenőjelből kivonjuk az első főkomponenst, a módosított bemenőjel legfontosabb főkomponense (és a módosított bemenőjelhez rendelt autokorrelációs mátrix első sajátvektora) az eredeti jel második legfontosabb főkomponese (az eredeti autokorrelációs mátrix második sajátvektor irányára vetített komponens) lesz. A hálózat második neuronja ezért a második legfontosabb sajátvektort és az ebbe az irányba eső jelkomponenst állítja elő. A hálózatot további processzáló elemekkel bővítve és az eljárást tovább folytatva az összes sajátvektor, illetve főkomponens meghatározható.

Az eljárás bemutatásához vezessük be az alábbi jelölést: legyen $x^{(i)}$ az i-edik neuronra kerülő módosított bemenet. Ez azt jelenti, hogy $x^{(1)} = x$ a hálózat eredeti bemenőjele.

Az Oja szabály szerint az első neuron súlyvektorának tanító összefüggése:

$Δ w_{1} = μ (y_{1} x^{(1)} - y_{1}^{2} w_{1})$ . (10.49)

Képezzük a módosított bemenetet, vagyis vonjuk ki az eredeti bemenetből a bemenetnek az első sajátvektorra eső komponensét:

$x^{(2)} = x^{(1)} - (w_{1}^{T} x^{(1)}) w_{1} = x^{(1)} - y_{1} w_{1}$ , (10.50)

és erre alkalmazzuk ismét az Oja szabályt:

$Δ w_{2} = μ (y_{2} x^{(2)} - y_{2}^{2} w_{2}) = μ (y_{2} x^{(1)} - y_{1} y_{2}^{} w_{1} - y_{2}^{2} w_{2})$ (10.51)

A módosított bemenet előállításánál figyelembe vettük, hogy a súlyvektor normalizált, vagyis $‖ w_{1} ‖ = 1.$

Hasonlóan tovább folytatva az eljárást és figyelembe véve, hogy a további súlyvektorok hossza is egységnyi, az i-edik súlyvektor módosító összefüggésére a következőt kapjuk:

$\begin{array}{l} Δ w_{i} = μ (y_{i} x^{(i)} - y_{i}^{2} w_{i}) \\ = μ y_{i} (x^{(1)} - y_{1} w_{1} - ... - y_{i}^{} w_{i}) \\ = μ (y_{i} x^{(1)} - \sum_{j = 1}^{i - 1} y_{i} y_{j} w_{j} - y_{i}^{2} w_{i}) \end{array}$ (10.52)

10.6. ábra - A GHA működési elve

A 10.6 ábra azt mutatja, hogy hogyan számítjuk ki az egymást követő főkomponenseket. A háló összes súlyvektorának módosító összefüggését egy közös egyenletbe is összefoghatjuk. A fenti algoritmust vektorosan felírva kapjuk a Sanger tanulási szabályt, amit általánosított Hebb algoritmusnak(Generalized Hebbian Algorithm, GHA) is szoktak nevezni [San89]:

$Δ W = μ [y x^{T} - LT (y y^{T}) W]$ , (10.53)

ahol W hasonlóan az Oja altér háló összefüggéséhez most is a háló súlyvektoraiból, mint sorvektorokból képezett mátrix.

A Sanger szabály (10.53) szerinti összefüggése nagyon hasonló az általánosított Oja szabály (10.48) összefüggéséhez. A különbség mindössze annyi, hogy a zárójelen belüli kifejezés második tagját képező mátrixnak a Sanger szabálynál csak az alsó háromszög mátrixával (LT) dolgozunk. Ez valójában azt fejezi ki, hogy itt egy hierarchikus számítási modellről van szó.

Az APEX háló

Az APEX háló szintén a főkomponensek meghatározására alkalmas. Felépítése hasonló az Oja altér háló felépítéséhez azzal kiegészítve, hogy itt a neuronok között egyirányú laterális kapcsolatok is vannak. Valójában ez a háló is az Oja szabály és a Gram-Schmidt eljárás kombinálásával dolgozik, azonban ezt módosított architektúrával, oldalirányú kapcsolatok bevezetésével éri el. A hálózat a főkomponenseket egyenként, egymás után határozza meg, és oldalirányú kapcsolatok csak a már meghatározott kimenetek és az éppen meghatározás alatt álló kimenet között vannak (10.7 ábra).

A hálózat tanításának összefüggéseit arra az esetre adjuk meg, amikor feltételezzük, hogy az első j−1 processzáló elem súlyai már beálltak, és most a j-edik neuron tanítása folyik. A hálózat j-edik kimenete:

$y_{j} (k) = w_{j}^{T} (k) x (k) - q_{j}^{T} y_{j - 1} (k)$ , (10.54)

ahol $y_{j - 1} (k) = {[y_{1} (k), y_{2} (k), . . ., y_{j - 1} (k)]}^{T}$ a hálózat első j−1 kimenetéből képezett vektor, $w_{j}$ a j-edik kimenet előrecsatoló súlyvektora, $q_{j}$ pedig az első j−1 kimenetről a j-edik kimenethez csatoló oldalirányú kapcsolatok súlyvektora.

A súlymódosítás összefüggései a j-edik processzáló elem számára az alábbiak:

$Δ w_{j} = μ [y_{j} x - y_{j}^{2} w_{j}]$ , (10.55)

és

$Δ q_{j} = - μ [y_{j} y_{j - 1}^{} + y_{j}^{2} q_{j}]$ . (10.56)

Látható, hogy az előrecsatoló súlyok tanítása az Oja szabállyal, a laterális kapcsolatok tanítása a módosított anti-Hebb szabállyal (tulajdonképpen az anti-Oja szabállyal) történik. Bizonyítható [Dia96], hogy konvergencia esetén az előrecsatoló súlyvektor a j-edik legnagyobb sajátértékhez tartozó sajátvektorhoz, az oldalirányú csatolás súlyvektora pedig 0-hoz tart. Megmutatható az is [San93], hogy a GHA és az APEX megoldás lényegében ekvivalensek. Mindkettő valójában egymás után, egyenként, csökkenő „fontossági” sorrendben (csökkenő sajátértékek szerint) határozza meg a sajátvektorokat és a bemeneti jel főkomponenseit. Egyik háló sem állítja elő ugyanakkor a megfelelő sajátértékeket, bár ezek a kimeneti értékek átlagos négyzetes értékeivel becsülhetők. Ugyancsak közös mindkét hálónál, hogy legpontosabban a legfontosabb sajátvektort határozzák meg, az egyre csökkenő fontosságúak hibái − minthogy meghatározásukban szerepet játszanak a rangsorban előttük állók − egyre növekednek.

10.7. ábra - Az APEX háló

Fontos kérdés még a hálózatok megfelelő működéséhez a $μ$ tanulási tényező megválasztása. Egyrészt magát a konvergenciát is befolyásolja, hogy milyen tanulási tényezőt választunk, másrészt, ha konvergens is az eljárás, a konvergenciasebesség is nagymértékben függ $μ$ értékétől. A PCA hálózatok konvergenciájának bizonyítása a sztochasztikus approximáció eredményein alapul, ezért itt is bizonyos számú tanító lépésenként csökkenő $μ$ alkalmazása (ld. (2.136) összefüggés) célszerű, bár nagyon sok alkalmazásban konstans $μ$ felhasználását javasolják. Ez utóbbi esetben a konvergenciát úgy biztosíthatjuk, ha megfelelően kicsire választjuk $μ$ -t. Az APEX hálónál az is megmutatható, hogy létezik optimális, lépésenként változó tanulási tényező is, amely ráadásul neuronfüggő. A j-edik PE súlyainak tanításához a k-adik lépésben az optimális tanulási faktor:

$μ_{j, o p t} (k) = \frac{1}{σ_{j}^{2} (k)}$ , (10.57)

ahol $σ_{j}^{2} (k)$ a hálózat j-edik kimenetének átlagos négyzetes értéke (varianciája). Az optimális érték helyett a gyakorlatban könnyebben alkalmazható az alábbi összefüggés szerint választott együttható [Kun90]:

$μ_{j} = \frac{1}{λ_{j - 1}}$ , (10.58)

Ezzel a választással a biztonságos, de kissé lassúbb konvergencia irányában módosítjuk $μ$ -t, hiszen $σ_{j}^{2}$ a j-edik sajátérték, $λ_{j}^{}$ becslése ( $σ_{j}^{2} (k)$ → $λ_{j}^{}$ ha k→∞), és $λ_{j}^{}$ < $λ_{j - 1}^{}$ .

A PCA hálózatok egyik legfőbb előnye az egyéb KLT eljárásokhoz képest, hogy a transzformációt nem két, hanem egyetlen lépésben végzik. Nincs szükség tehát előbb a bemeneti jel autokorrelációs (autokovariancia) mátrixának meghatározására és ennek alapján a sajátvektorok kiszámítására, hanem közvetlenül a bemeneti adatokból dolgozhatunk. Ennek ellenére nem állíthatjuk, hogy a neurális módszer a legjobb a KLT meghatározására. Számos olyan kérdés merül föl (konvergenciasebesség, pontosság, beleértve a numerikus pontosságot is), melyek részletes elemzése még nem vagy csak részben történt meg.

A PCA hálózatok aszimptotikusan a KL transzformációt eredményezik, így az optimális lineáris transzformáció megvalósításának eszközei. Számos gyakorlati feladatnál szokás azonban egyéb transzformációkat alkalmazni, melyek az optimális transzformációt csak közelítik, de melyek kiszámítása lényegesen egyszerűbb (pl. képtömörítésnél a KL transzformáció helyett a diszkrét koszinusz transzformációt (DCT) alkalmazzák [Wal91]).

Az eddigi adattömörítő hálózatokra jellemző, hogy lineáris egyrétegű felépítéssel rendelkeznek. A következőkben röviden bemutatjuk, hogy adattömörítést többrétegű hálózatokkal is lehetséges.

10.3.4. Lineáris többrétegű perceptron, mint adattömörítő hálózat

Képzeljünk el egy olyan két aktív rétegű perceptront, amely lineáris neuronokbólépül fel és autoasszociatív módon működik, vagyis adott bemenetre válaszként magát a bemenetet várjuk. Az autoasszociatív hálóknál a kívánt kimenet megegyezik a bemenettel. Amennyiben a rejtett rétegbeli neuronok száma (M) kisebb, mint a bemenetek (és ennek megfelelően a kimenetek) száma (N), akkor a rejtett rétegbeli neuronok kimenő értékei a bemenet tömörített (közelítő) reprezentációját adják (ld. 10.8 ábra).

A rejtett réteg képezi a háló "szűk keresztmetszetét". Ha a hálót a szokásos hibavisszaterjesztéses algoritmussal tanítjuk, a háló által előállított kimenet (y) átlagos négyzetes értelemben közelíti a háló bemeneti jelét (x). A háló kimeneti rétege a rejtett rétegbeli M-dimenziós reprezentációból állítja vissza az N-dimenziós kimenetet, tehát a rejtett réteg kimenetén a bemenőjel kisebb dimenziós altérbe vett vetületét kapjuk meg, olyan módon, hogy e közelítő ábrázolásból az eredeti jel a legkisebb átlagos négyzetes hibával állítható vissza. Az altér lineáris neuronokmellett bizonyítottan [Bal89] a megfelelő KLT alteret jelenti, de az altérben a bázisvektorok nem feltétlenül lesznek a sajátvektorok.

Megmutatható, hogy az autoasszociatív hálózat hibája nem függ attól, hogy a rejtett rétegbeli neuronok lineáris vagy nemlineáris kimenettel rendelkeznek. A háló mindkét esetben a bemenetnek a főkomponensek alterébe eső vetületét adja.

Az adattömörítő többrétegű perceptron olyan hálózatra példa, ahol annak ellenére, hogy lineáris processzáló elemekkel dolgozunk, a több réteg alkalmazásának értelme van, ugyanis épp a közbenső, kisebb dimenziós rejtett réteg szolgáltatja a bemenet tömörített változatát.

10.8. ábra - Lineáris többrétegű perceptron, mint adattömörítő autoasszociatív háló

Mesterséges Intelligencia Elektronikus Almanach

Elsődleges linkek