11.3. Mean-field hálózatok

A Hopfield hálózat determinisztikus neuronjait sztochasztikus viselkedésű elemekkel felváltva lecsökkenthető a lokális minimumokba való beragadás valószínűsége. A szimulált lehűtés módszer alkalmazásának az ára viszont, hogy a gyorsan konvergáló Hopfield modell helyett, egy lassú, nagyszámú iterációt igénylő algoritmust kell használni. Bár a Boltzmann hálózat konvergencia-sebessége a lehűtési stratégia paramétereinek változtatásával szabályozható, a gyakorlatban eredményesen használható lehűtési módszerek jelentősen megnövelik a futtatás idejét.

A szimuláció során azonban nincs szükségünk a sztochasztikus rendszer elemei pillanatnyi állapotainak ismeretére, így ha a hálózat viselkedése a sztochasztikus neuronok aktuális értékének számítása nélkül is leírható, akkor ezzel gyorsítani lehet a globális minimum keresését. Bár egzakt megoldás nem ismert erre a problémára, nagyméretű hálózatok esetében a sztochasztikus változók várható értékét becslő közelítés, a mean-field approximáció sikeresen használható. A mean-field módszer jól ismert a statisztikus fizikában, ahol nagy szabadságfokú rendszerek (pl. mágneses anyagok) leírására gyakran alkalmazzák [Her91].

A mean-field közelítés felhasználásakor a rendszer diszkrét, sztochasztikus változóit folytonos, determinisztikus változókkal helyettesítjük [Nak97] sztochasztikus Boltzmann hálózat egy adott hőmérsékleten egyensúlyi állapotba konvergál, így ilyenkor a változók átlagértékei idő-függetlenek. A módszer lényege tehát, hogy az egyensúlyi állapotban lévő sztochasztikus hálózat neuronjainak átlagértékét − $〈 x_{i} 〉$ − próbáljuk meghatározni (11.21) felhasználásával:

$\begin{matrix} 〈 x_{i} 〉 \equiv P (x_{i} = 1) (1) + P (x_{i} = - 1) (- 1) \\ = \frac{1}{1 + e^{- 2 s_{i} / T}} - \frac{1}{1 + e^{2 s_{i} / T}} = \frac{e^{s_{i} / T}}{e^{s_{i} / T} + e^{- s_{i} / T}} - \frac{e^{- s_{i} / T}}{e^{- s_{i} / T} + e^{s_{i} / T}} = \\ = tanh (s_{i} / T) \end{matrix}$ (11.27)

A mean-field közelítés alkalmazásakor véletlen változók függvényének átlagát közelítjük a változók átlagának függvényével. Helyettesítsük a 11.21-beli, a sztochasztikus neuronok hatását kifejező $s_{i}$ -ket átlagértékükkel:

$s_{i} \to 〈 s_{i} 〉 = 〈 \sum_{j} w_{i j} x_{j} + Θ_{i} 〉 = \sum_{j} w_{i j} 〈 x_{j} 〉 + Θ_{i}$ (11.28)

$〈 x_{i} 〉 = tanh (〈 s_{i} 〉 / T) = tanh (\frac{1}{T} \sum_{j} w_{i j} 〈 x_{j} 〉 + Θ_{i})$ (11.29)

A termikus egyensúlyi állapotban lévő sztochasztikus hálózat neuronjai tehát a (11.29) által definiált N determinisztikus nemlineáris egyenlet megoldásai körül, mint átlagértékek körül oszcillálnak. A (11.29) egyenletet mean-field egyenletnek nevezzük. A fenti nemlineáris egyenletrendszer ekvivalens egy folytonos kimenetű (szigmoid aktivációs függvénnyel rendelkező) Hopfield hálózat modelljével. A megoldás a hálózat stabil állapotához tartozó neuron értékek, azaz a hálózat szimulációjával számítható, ha a (11.29) által definiált rendszer stabil. Ez lényegében egy gradiens alapú keresésnek felel meg. Hasonlóan a diszkrét értékű Hopfield hálózathoz, ehhez a rendszerhez is rendelhető energiafüggvény, amely biztosítja a stabilitást, mivel az energiafüggvény kielégíti Ljapunov stabilitási tételének a globális aszimptotikus stabilitásra vonatkozó feltételeit. A folytonos értékű Hopfield hálózatnak [Far90] a következő függvény energiafüggvénye, ha W szimmetrikus és $T > - λ_{min}$ :

$E_{f} = - \frac{1}{2} \sum_{i} \sum_{j} w_{i j} x_{i} x_{j} - \sum_{i} Θ_{i} x_{i} + \int_{0}^{x_{j}} {tanh}^{- 1} (x) d x$ (11.30)

Ismert, hogy ha a súlymátrixnak van negatív sajátértéke, akkor a T paraméter kis értékeinél 2 periódusú határciklusba is kerülhet a hálózat. A diszkrét és folytonos hálózatok energiafüggvényének hasonlósága jelzi, hogy a két rendszert is hasonló tulajdonságok jellemzik és egy-egy arányú kapcsolat áll fenn az energia minimumok és maximumok között.

A mean-field algoritmus megvalósítására a leggyakrabban, a Boltzmann gépnél bemutatottakhoz hasonlóan itt is szimulált lehűtést alkalmaznak. Ilyenkor a lehűtés során minden hőmérsékleten ki kell számolni a mean-field változók értékeit, majd ezt a megoldást lehet felhasználni az alacsonyabb hőmérsékleten kezdeti értékként. Mivel a mean-field modell ekvivalens a folytonos Hopfield hálózattal, ezért a hőmérséklet csökkentésével ez a modell is a diszkrét Hopfield hálózathoz konvergál.

Mind a Boltzmann, mind a mean-field hálózatok a lokális keresést végző aszinkron Hopfield hálózat kiterjesztései, amelyek sztochasztikus keresés felhasználásával növelik meg a globális optimum megtalálásának esélyét. Mivel a módszerek egymásnak alternatívái, természetesen adódik a kérdés, hogy melyiket érdemes alkalmazni. Egyértelmű válasz megfogalmazása még egy konkrét probléma esetében is nehéz és bátorságot igénylő feladat. A következőkben az elméleti és tapasztalati ismeretek alapján több szempont szerint fogjuk vizsgálni és összehasonlítani a Boltzmann és mean-field neurális hálózatokat.

A módszerek elméleti háttere

A szimulált lehűtés módszerét közvetlenül alkalmazó Boltzmann hálózatról ismert, hogy aszimptotikusan konvergál az optimális megoldáshoz, sőt az eljáráshoz optimális sebességű lehűtési stratégia is ismert. Ezen felül, ehhez az algoritmushoz rendelkezésre áll olyan vizsgálati lehetőség, amely a megtett iterációk számához képes az aktuális megoldás várható költségének az optimális megoldás költségétől való eltérésére korlátot adni. Bár ezt a pontosság mértékét meghatározó eljárást a gyakorlatban jelentős számításigénye miatt nem tudjuk alkalmazni, a korlát léte önmagában is eredmény. A mean-field módszer esetében ilyen igazolt tételek nem állnak a rendelkezésünkre. Ennek oka az, hogy a mean-field közelítés pontosságára nem ismert becslés véges méretű rendszerek esetében.

A megoldások minősége

A tapasztalatok azt mutatják, hogy a Boltzmann hálózat sok esetben az elméletileg szükségesnél nagyságrendekkel gyorsabb lehűtés alkalmazása esetén is igen jó minőségű megoldást ad. A mean-field módszer esetében a keresés az átlagolással és az átlag meghatározás pontatlanságával járó információvesztés miatt kevésbé érzékeny a probléma részleteire, ami az optimálishoz közeli energiaértékű megoldások megtalálásának valószínűségét csökkenti. Különösen igaz ez, ha az energiafelület változatos, számos, viszonylag kis átmérőjű mély gödröt illetve csúcsot tartalmaz.

A keresés ideje

A sztochasztikus rendszer valódi állapotváltozásait nem követő, az átlagértékeket közvetlenül becsülő mean-field hálózat lényegesen kevesebb iteráció alatt konvergál az egyensúlyi állapot értékeihez, mint a Boltzmann hálózat. A tapasztalatok azt mutatják, hogy a mean-field módszer kevésbé érzékeny a lehűtési stratégia paramétereinek megválasztására és a lehűtés sebességének növelésével kevésbé romlik a hatékonysága. Ezt a tapasztalatot támasztja alá az energiafüggvények jellege közti különbség. A mean-field módszert megvalósító folytonos kimeneti függvénnyel rendelkező Hopfield hálózat energiafüggvénye simább, mint a hasonló súlyokkal rendelkező diszkrét hálózaté, amelynek következtében a minimumok keresése gyorsabban is folytatható.

A probléma jellege

A Boltzmann hálózat egyaránt alkalmas kis és nagyméretű, illetve simának vagy változatosnak tekinthető energiafelületet eredményező feladatok megoldására. A mean-field módszer viszont azon a feltevésen alapszik, hogy megfelelő közelítés a nagyméretű homogén rendszer átlagértékeit meghatározni. Ezért kisebb méretű problémák vagy olyan bonyolult feladatok esetében, amikor ezek a feltevések nem igazak, akkor a mean-field egyenletek megoldása az eredeti probléma optimumától távoli eredményeket adhat.

Természetesen egy átfogó értékeléshez vagy egy alkalmazás esetében a megfelelő módszer kiválasztásához a fenti szempontokat együttesen kell figyelembe venni. Az eddigi érvelések a módszerek közti választáshoz mérlegelési szempontokat adhatnak, a tesztek megtervezéséhez iránymutatást nyújthatnak. A sok bizonytalanságot tartalmazó elemzés összefoglalásaként két jellemző görbe párt mutat be a 12.6 ábra. Látható, hogy a nagyobb méretű, de egyszerűbbnek tekinthető feladatok esetében jól kihasználható a mean-field közelítés gyorsasága, míg a bonyolultabb problémáknál a Boltzmann hálózat alacsonyabb költségű megoldást eredményez, bár ha egy adott időn belül kell választ adni, akkor létezik egy határérték, ami alatt a mean-field hálózat hatékonyabb.

Ha egy alkalmazási feladat esetében van lehetőség a két módszer között vizsgálatok alapján választani, akkor mind a két, különböző irányú megközelítés mellett lehet hasonló súlyú érveket felhozni. Kezdhetjük a vizsgálatokat a mean-field hálózattal, és ha nem sikerül megfelelő pontosságú eredményt elérni, akkor érdemes a Boltzmann hálózatot is alkalmazni. Vagy elemezhetjük először a Boltzmann hálózat eredményeit, és akkor döntünk a mean-field módszer vizsgálata mellett, ha elfogadható futási időn belül nem kapunk megfelelő minőségű megoldást.

11.6. ábra - Tipikus lehűtési görbék Boltzmann és mean-field hálózatokkal a.)homogén energiafüggvényen b.) változatos, sok lokális minimumot tartalmazó energiafüggvényen

Tipikus lehűtési görbék Boltzmann és mean-field hálózatokkal a.)homogén energiafüggvényen b.) változatos, sok lokális minimumot tartalmazó energiafüggvényen

Mesterséges Intelligencia Elektronikus Almanach

Elsődleges linkek

11.3. Mean-field hálózatok