9.2. Szakértőegyüttesek

Az előző részben olyan moduláris háló kialakítást láttunk, ahol egy feladatot részfeladatokra bontva és minden egyes részfeladathoz egy önálló hálót rendelve kaptunk moduláris neurális architektúrát. A következőkben olyan együttműködő hálókkal foglalkozunk, amelyek mindegyike a teljes feladatot oldja meg.

Az ún. hálóegyüttesek általában több háló eredményének lineáris kombinációjaként állítják elő az egyes részeredményekből az aggregált választ. A lineáris kombináció hasznossága intuitíve is alátámasztható, azonban megfelelő feltételek mellett a megoldás indokoltsága formálisan is igazolható.

A lineáris kombináció kialakítása − egyszerűsége ellenére − többféleképpen történhet. A következőkben előbb egy fix súlyozású lineáris kombinációt alkalmazó megoldást mutatunk be, ahol a súlyok optimális értékének meghatározására törekszünk, majd azt mutatjuk meg, hogy megfelelő feltételek mellett az eredő megoldás az egyes megoldások bármelyikénél is jobb lehet. Végül ennek a résznek a befejezéseként egy olyan moduláris architektúrát mutatunk be, ahol a feladat dekomponálása, illetve az egyes modulok eredményeihez rendelhető súlyok meghatározása a teljes háló konstrukció részeként „automatikusan”, a háló tanítása során alakul ki.

9.2.1. Hálók optimális lineáris kombinációja

A hálók lineáris kombinációjának alapötletét az adta, hogy egy gyakorlati feladat megoldásánál szinte minden esetben több hálót konstruálunk, és ezek közül választjuk ki a legjobbat. Ennek alapvető oka, hogy az „optimális” hálót általában nem tudjuk megtervezni. Egy adott feladat megoldására alkalmas háló konstrukciójának nem minden lépését tudjuk a feladatból egyértelműen származtatni, így azt sem tudjuk általában eldönteni, hogy mit tekinthetünk optimális hálóarchitektúrának. Egy megfelelően jó megoldás eléréséhez ezért valójában több, esetenként meglehetősen sok, kisebb vagy nagyobb mértékben eltérő hálót hozunk létre. Ezek a hálók különbözhetnek a felépítésükben − akár eltérő hálótípusokkal (pl. MLP, RBF, SVM, stb.) is próbálkozhatunk −, de lehet, hogy csak a háló méretében vagy a tanítás módjában, esetleg a felhasznált tanítókészlet összeállításában van különbség. Ha csak a „legjobb” hálót tartjuk meg és a többit eldobjuk, akkor a „mellékeredményeket” csak részben hasznosítjuk. A mellékeredmények ugyanis nemcsak abból a szempontból tekinthetők fontosnak, hogy kialakításuk a végleges háló konstrukcióját segíti, hanem abból a szempontból is, hogy az egyes megoldások a teljes feladat bizonyos tartományain akár a végleges megoldásnál jobb eredményt is nyújthatnak. Ezt a „képességüket” is célszerű hasznosítani.

A hálók lineáris kombinációjánál több háló kimenetének súlyozott összegét képezzük [Has97]:

MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcaa@3568@ y ¯ ( x,α )= j=0 M α j y j ( x ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabmyEayaaraGaaGjcVlaayIW7caaMi8+aaeWaaeaacaWH4bGaaiilaiaahg7aaiaawIcacaGLPaaacqGH9aqpdaaeWbqaaGGaciab=f7aHnaaBaaaleaacaWGQbaabeaaaeaacaWGQbGaeyypa0JaaGimaaqaaiaad2eaa0GaeyyeIuoakiaadMhadaWgaaWcbaGaamOAaaqabaGcdaqadaqaaiaahIhaaiaawIcacaGLPaaaaaa@4DDF@ (9.10)

ahol az αj , j=0, 1, …, M együtthatók a lineáris kombináció súlytényezői.

A teljes moduláris háló a 9.6 ábrán látható.

A hálóegyüttesben M modul található, a kimeneti súlyozott összegzésben pedig még egy eltolásérték (bias) is szerepel (y0(x)≡1 és α0 képviseli az eltolásértéket). Az ábrából látható, hogy a hálók lineáris kombinációja úgy is tekinthető, mint egy olyan többrétegű háló, melynek az utolsó kimeneti rétege lineáris. Ha az egyes modulok MLP-k, akkor az egész moduláris kialakítás egy többrétegű perceptron. A moduláris kialakítás azonban egy általános többrétegű perceptronhoz képest több lényeges eltérést mutat. Egyrészt az egyes modulok kialakítása egymástól függetlenül történik, másrészt – ahogy ezt a továbbiakban látni fogjuk – a kimenő, integráló réteg súlyait nem a hagyományos módon és nem a modulok tanításával együtt tanítjuk.

Ha a hálóegyüttes kialakításánál a fenti gondolatmenetből indulunk ki, akkor hálók lineáris kombinációjánál különállóan megtanított hálókból építjük fel a moduláris hálót. Ez azt jelenti, hogy az egyedi hálók tanításán túl további feladatokat kell megoldani. Meg kell határozni, hogy hány modulból álljon a moduláris rendszer és azt is, hogy a rendelkezésre álló egyedi hálók közül melyek kerüljenek kiválasztásra, majd meg kell határozni a lineáris kombináció súlyait.

9.6. ábra - Hálók lineáris kombinációja több-bemenetű − egykimenetű esetben
Hálók lineáris kombinációja több-bemenetű − egykimenetű esetben

Az egyedi hálók kiválasztása

Az egyedi hálók számának meghatározására nincs általános módszer. A hálóegyüttes létrehozásának elsődleges célja a megoldás minőségének javítása, így csak a teljes moduláris háló kiértékelése alapján dönthetjük el, hogy adott számú modulból felépülő hálóegyüttes egy adott feladat megoldása szempontjából megfelelő-e vagy sem. Egyfelől azt mondhatjuk, hogy a modulok számának növelése a teljes rendszer általánosítóképességét várhatóan javítja, másfelől a túl sok modul túl sok erőforrást igényel, ami az alkalmazás korlátja is lehet.

Az általánosítóképesség javulását intuitíve a kimeneti súlyozott összegző átlagoló hatásával magyarázhatjuk, másrészt a következő alfejezetben − legalábbis bizonyos speciális súlyozás esetére − formálisan is alátámasztjuk. A túl sok modul összességében túl sok szabad paramétert jelent, és − amint ezt az előző fejezetekben láttuk − a túl sok szabad paraméter általában túlilleszkedésre vezethet. A túlilleszkedés veszélye a hálóegyüttesnél azonban nem jelentős, hiszen itt olyan modulok összekapcsolásáról van szó, melyeket külön-külön alakítottunk ki, így ha ezek a modulok önmagukban nem mutatnak túlilleszkedési hajlamot, akkor ez a veszély a súlyozott összegükre sem áll fenn. Másfelől hálóegyütteseknél az egyedi hálóknál jelentkező túlilleszkedés még előnyös is lehet, ahogy erre a következőkben utalni fogunk.

A modulok számára korlátot inkább az jelent, hogy az egyes modulok mennyiben hoznak új eredményt, illetve milyen kapcsolat van az egyes modulok válaszai között. Ha két vagy több modul kimenetei lineárisan összefüggők, akkor a moduláris kiépítés redundáns, ráadásul az ilyen helyzet az integráló réteg súlyainak meghatározását is nehezíti.

Az integráló réteg súlyainak meghatározása

A kimeneti réteg súlyait leggyakrabban a kimeneti átlagos négyzetes hiba minimalizálása útján határozzuk meg. Ekkor – mivel a modulokat integráló réteg szempontjából az egyes modulok kimenetei lesznek a bemenetek – a súlyozó hálózat nem más, mint egy adaline, melynek optimális súlyait a Wiener-Hopf egyenlet alapján határozhatjuk meg. E szerint:

α = R yy 1 p. MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCySdmaaCaaaleqabaGaey4fIOcaaOGaeyypa0JaaCOuamaaDaaaleaacaWG5bGaamyEaaqaaiabgkHiTiaaigdaaaGccaWHWbGaaiOlaaaa@3F33@ (9.11)

ahol

R yy =E{ y y T } MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCOuamaaDaaaleaacaWG5bGaamyEaaqaaaaakiabg2da9iaadweadaGadaqaaiaahMhacaaMi8UaaGjcVlaayIW7caWH5bWaaWbaaSqabeaacaWGubaaaaGccaGL7bGaayzFaaaaaa@443F@ és p=E{ dy } MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiCaiabg2da9iaadweadaGadaqaaiaadsgacaWH5baacaGL7bGaayzFaaaaaa@3C4E@ (9.12)

a modulok kimeneteiből képzett vektornak ( y= [ y 1 , y 2 ,, y M ] T MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCyEaiabg2da9maadmaabaGaamyEamaaBaaaleaacaaIXaaabeaakiaacYcacaWG5bWaaSbaaSqaaiaaikdaaeqaaOGaaiilaiablAciljaacYcacaWG5bWaaSbaaSqaaiaad2eaaeqaaaGccaGLBbGaayzxaaWaaWbaaSqabeaacaWGubaaaaaa@4380@ ) autokorrelációs mátrixa, illetve a modulok kimeneteinek és a kívánt kimenetnek a keresztkorrelációs vektora. A megoldáshoz az R yy MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCOuamaaBaaaleaacaWG5bGaamyEaaqabaaaaa@386C@ mátrix becslésére és a mátrix inverzének a kiszámítására van szükség.

A súlyok optimális értékének meghatározása után a következőkben arra keressük a választ, hogy az optimális lineáris kombináció eredményeképp kapott hálóegyüttessel milyen eredmény érhető el. Több hálóból álló hálóegyüttes alkalmazásának ugyanis csak akkor van értelme, ha eredőben jobb eredményt érhetünk el, mint amit bármelyik egyedi háló elérne.

9.2.2. Pontos és különböző szakértők együttese

Hálóegyüttesnél az egyes hálók által szolgáltatott megoldásoknak valamilyen mértékben különbözniük kell egymástól, ugyanis azonos eredmények bármilyen súlyokkal történő súlyozott összegeként is csak ezt az azonos választ kaphatjuk. Eltérő válaszok azonban lehetőséget adnak arra, hogy az egyedi válaszok kombinálásaként az egyes válaszok egymást segítve, egymást kiegészítve, összességében a teljes feladatra nézve jobb megoldást szolgáltassanak, mint bármelyik egyedi megoldás. A hálóegyüttes alkalmazásának kulcseleme tehát az egyedi megoldások különbözősége. A következőkben ezt a kérdést próbáljuk egy kicsit részletesebben megvizsgálni.

Egy hálóegyüttes vizsgálatánál induljunk ki abból, hogy van M hálónk, melyek mindegyike a teljes feladatot oldja meg. Jelöljük ezeknek a hálóknak a kimenetét adott x bemenet mellett yj(x)-szel (j=1,2,…,M). A hálóegyüttes kimenetét az előző részben alkalmazott eljáráshoz hasonlóan az egyes hálók kimeneteinek súlyozott összegeként határozzuk meg. Jelöljük y MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabmyEayaaoaaaaa@367C@ (x,α)-val az eredő választ, hiszen a súlyozott kimenet nemcsak az x bemenetnek hanem az αj súlyoknak is a függvénye:

y ¯ ( x,α )= j=1 M α j y j (x) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabmyEayaaraGaaGjcVlaayIW7caaMi8+aaeWaaeaacaWH4bGaaiilaiaahg7aaiaawIcacaGLPaaacqGH9aqpdaaeWbqaaGGaciab=f7aHnaaBaaaleaacaWGQbaabeaaaeaacaWGQbGaeyypa0JaaGymaaqaaiaad2eaa0GaeyyeIuoakiaadMhadaWgaaWcbaGaamOAaaqabaGccaqGOaGaaCiEaiaabMcaaaa@4DAE@ (9.13)

A következőkben – az előző részben alkalmazott megoldástól eltérően – kikötjük, hogy a súlyok legyenek pozitívak és összegük legyen egységnyi, vagyis teljesüljenek a

j=1 M α j =1 MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaaabCaeaaiiGacqWFXoqydaWgaaWcbaGaamOAaaqabaaabaGaamOAaiabg2da9iaaigdaaeaacaWGnbaaniabggHiLdGccqGH9aqpcaaIXaaaaa@3FAE@ és α j >0j=1,2,,M MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqySde2aaSbaaSqaaiaadQgaaeqaaOGaeyOpa4JaaGimaiaayIW7caaMi8UaaGjcVlaayIW7caaMi8UaaGjcVlaayIW7caaMi8UaamOAaiabg2da9iaaigdacaGGSaGaaGOmaiaacYcacqWIMaYscaGGSaGaamytaaaa@4DE7@ (9.14)

feltételek. Ez a kikötés fontos lesz a továbbiakban.

A hálóegyüttes minősítéséhez meg kell határozni az eredő válasz hibáját. Amennyiben most is négyzetes hibakritériumot alkalmazunk, adott mintapontban az eredő válasz hibáját

e(x)= ε 2 (x)=[ d(x) y ¯ ( x,α ) ] 2 MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyzaiaabIcacaWH4bGaaeykaiabg2da9iabew7aLnaaCaaaleqabaGaaGOmaaaakiaabIcacaWH4bGaaeykaiabg2da9maadmaabaGaamizaiaabIcacaWH4bGaaeykaiabgkHiTiqadMhagaqeaiaayIW7caaMi8UaaGjcVpaabmaabaGaaCiEaiaacYcacaWHXoaacaGLOaGaayzkaaaacaGLBbGaayzxaaGaaGjcVlaayIW7daahaaWcbeqaaiaaikdaaaaaaa@5414@ (9.15)

adja meg. Az eredő hiba mellett meghatározhatjuk az egyes egyedi megoldások négyzetes hibáit is. A j-edik modul hibája ennek megfelelően:

e j (x)= ε j 2 (x)=[ d(x) y j (x) ] 2 MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyzamaaBaaaleaacaWGQbaabeaakiaabIcacaWH4bGaaeykaiabg2da9iabew7aLnaaDaaaleaacaWGQbaabaGaaGOmaaaakiaabIcacaWH4bGaaeykaiabg2da9maadmaabaGaamizaiaabIcacaWH4bGaaeykaiabgkHiTiaadMhadaWgaaWcbaGaamOAaaqabaGccaaMi8UaaGjcVlaayIW7caqGOaGaaCiEaiaabMcaaiaawUfacaGLDbaacaaMi8UaaGjcVpaaCaaaleqabaGaaGOmaaaaaaa@5516@ (9.16)

Minthogy az egyes megoldások különbözni fognak egymástól, célszerű, ha meghatározzuk az egyes megoldásoknak az eredő megoldástól való négyzetes eltérését, különbözőségét is. Jelöljük ezt a(x)-szel. (A jelölés az angol ambiguity elnevezésre utal, mely elnevezést itt a különbözőség megjelölésére használunk.)

a j (x)=[ y j (x) y ¯ ( x,α ) ] 2 MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyyamaaBaaaleaacaWGQbaabeaakiaabIcacaWH4bGaaeykaiabg2da9maadmaabaGaamyEamaaBaaaleaacaWGQbaabeaakiaabIcacaWH4bGaaeykaiabgkHiTiqadMhagaqeaiaayIW7caaMi8UaaGjcVpaabmaabaGaaCiEaiaacYcacaWHXoaacaGLOaGaayzkaaaacaGLBbGaayzxaaGaaGjcVlaayIW7daahaaWcbeqaaiaaikdaaaaaaa@5077@ (9.17)

Az egész hálóegyüttesre értelmezhetünk egy eredő különbözőséget, mint az egyes hálókra számított különbözőségek súlyozott összegét:

a ¯ ( x,α )= j=1 M α j a j (x)= j=1 M α j [ y j (x) y ¯ ( x,α ) ] 2 MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabmyyayaaraGaaGjcVlaayIW7caaMi8+aaeWaaeaacaWH4bGaaiilaiaahg7aaiaawIcacaGLPaaacqGH9aqpdaaeWbqaaGGaciab=f7aHnaaBaaaleaacaWGQbaabeaaaeaacaWGQbGaeyypa0JaaGymaaqaaiaad2eaa0GaeyyeIuoakiaadggadaWgaaWcbaGaamOAaaqabaGccaqGOaGaaCiEaiaabMcacqGH9aqpdaaeWbqaaiab=f7aHnaaBaaaleaacaWGQbaabeaaaeaacaWGQbGaeyypa0JaaGymaaqaaiaad2eaa0GaeyyeIuoakmaadmaabaGaamyEamaaBaaaleaacaWGQbaabeaakiaabIcacaWH4bGaaeykaiabgkHiTiqadMhagaqeaiaayIW7caaMi8UaaGjcVpaabmaabaGaaCiEaiaacYcacaWHXoaacaGLOaGaayzkaaaacaGLBbGaayzxaaGaaGjcVlaayIW7daahaaWcbeqaaiaaikdaaaaaaa@6CA1@ (9.18)

Látható, hogy az eredő különbözőség egy súlyozott variancia jellegű mennyiség.

Ha az egyedi hibák súlyozott átlagát az alábbi összefüggés szerint definiáljuk

e ¯ (x,α)= j=1 M α j e j (x) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabmyzayaaraGaaeikaiaahIhacaGGSaGaaCySdiaabMcacqGH9aqpdaaeWbqaaGGaciab=f7aHnaaBaaaleaacaWGQbaabeaaaeaacaWGQbGaeyypa0JaaGymaaqaaiaad2eaa0GaeyyeIuoakiaadwgadaWgaaWcbaGaamOAaaqabaGccaqGOaGaaCiEaiaabMcaaaa@48A1@ , (9.19)

a hálóegyüttes eredő válaszának négyzetes hibája a következő formában is felírható:

e(x)=[ d(x) y ¯ (x,α) ] 2 = e ¯ (x,α) a ¯ (x,α) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyzaiaabIcacaWH4bGaaeykaiabg2da9maadmaabaGaamizaiaabIcacaWH4bGaaeykaiabgkHiTiqadMhagaqeaiaayIW7caaMi8UaaGjcVlaabIcacaWH4bGaaiilaiaahg7acaqGPaaacaGLBbGaayzxaaGaaGjcVlaayIW7daahaaWcbeqaaiaaikdaaaGccqGH9aqpceWGLbGbaebacaqGOaGaaCiEaiaacYcacaWHXoGaaeykaiabgkHiTiqadggagaqeaiaayIW7caaMi8UaaGjcVlaabIcacaWH4bGaaiilaiaahg7acaqGPaaaaa@5F24@ (9.20)

Az eddigi összefüggések által meghatározott mennyiségek adott x bemenet mellett jellemezték az egyedi hálózatokat illetve a hálóegyüttest. Az összes lehetséges bementre integrálva a fenti összefüggéseket meghatározhatjuk a teljes feladatra is az eredő hibát, az egyedi hibák súlyozott átlagát és a különbözőségek súlyozott átlagát.

E= x e(x,α)p(x)dx MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyraiabg2da9maapefabaGaamyzaiaabIcacaWH4bGaaiilaiaahg7acaqGPaGaamiCaiaabIcacaWH4bGaaeykaiaadsgacaWH4baaleaacaWH4baabeqdcqGHRiI8aaaa@44EA@ (9.21)

E ¯ = x e ¯ (x,α)p(x)dx MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabmyrayaaraGaeyypa0Zaa8quaeaaceWGLbGbaebacaqGOaGaaCiEaiaacYcacaWHXoGaaeykaiaadchacaqGOaGaaCiEaiaabMcacaWGKbGaaCiEaaWcbaGaaCiEaaqab0Gaey4kIipaaaa@451A@ (9.22)

A ¯ = x a ¯ (x,α)p(x)dx MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabmyqayaaraGaeyypa0Zaa8quaeaaceWGHbGbaebacaqGOaGaaCiEaiaacYcacaWHXoGaaeykaiaadchacaqGOaGaaCiEaiaabMcacaWGKbGaaCiEaaWcbaGaaCiEaaqab0Gaey4kIipaaaa@4512@ (9.23)

Ennek alapján a hálóegyüttes általánosítási hibájára is érvényes az egy mintapontra meghatározott (9.20) összefüggés megfelelője.

E= E ¯ A ¯ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyraiabg2da9iqadweagaqeaiabgkHiTiqadgeagaqeaaaa@39E6@ (9.24)

A (9.24) összefüggés fontos jellemzője, hogy ebben szétválasztva szerepel az egyes hálók általánosítási hibáitól függő tag és a hálók válaszai közötti korrelációtól függő tag. Az első tag ugyanis az egyes hálók hibáitól függ, tehát ebben a tagban szerepet kapnak a hálóknak a kívánt választól való eltérései, míg a második tag anélkül is meghatározható, hogy ismernénk a kívánt válaszokat. A (9.24) összefüggés a torzítás-variancia dilemma (ld. 2. fejezet) egyfajta megfogalmazásának is tekinthető. Ugyanis, ha a hálóegyüttes válasza torzított, ez arra utal, hogy a különálló válaszok meglehetősen hasonlóak (és torzítottak is) még azokra a bemenetekre is, melyeket nem használtunk fel a tanításnál. Ilyenkor az eredő megoldás általánosítási hibája alapvetően meg fog egyezni az egyes megoldások általánosítási hibáinak súlyozott összegével. Ha ugyanakkor a variancia nagy, vagyis az egyes megoldások jelentős mértékben eltérnek egymástól, az eredő megoldás általánosítási hibája kisebb lehet, mint az általánosítási hibák súlyozott összege. Általánosságban is igaz, hogy

E 1 M j=1 M E j MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyraiabgsMiJoaalaaabaGaaGymaaqaaiaad2eaaaWaaabCaeaacaWGfbWaaSbaaSqaaiaadQgaaeqaaaqaaiaadQgacqGH9aqpcaaIXaaabaGaamytaaqdcqGHris5aaaa@4123@ (9.25)

ahol a j-edik háló teljes hibája

E j = x e j (x)p(x)dx MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyramaaBaaaleaacaWGQbaabeaakiabg2da9maapefabaGaamyzamaaBaaaleaacaWGQbaabeaakiaabIcacaWH4bGaaeykaiaadchacaqGOaGaaCiEaiaabMcacaWGKbGaaCiEaaWcbaGaaCiEaaqab0Gaey4kIipaaaa@4547@ (9.26)

Az előbbiekből közvetlenül következik, hogy az eredő hiba úgy redukálható, ha az egyes hálók válaszai minél inkább különböznek, vagyis a (9.24) egyenletben a második tag egyre nagyobb, feltéve, ha közben biztosítani tudjuk, hogy az első tag ne növekedjen. Az eredő válasz négyzetes hibájának felírásából látható, hogy a négyzetes kifejezés miatt az semmiképp nem fordulhat elő, hogy (9.24) negatív eredményt adjon, bármekkora is a különbözőség az egyes különálló válaszok között.

A (9.24) összefüggés az ún. pontos és különböző (accurate and diverse) elv megfogalmazásának az alapja [Kro95], [Sol96]. Ennek megfelelően egy hálóegyüttes kialakításánál arra kell törekedni, hogy az egyes megoldások külön-külön minél pontosabbak és egymástól minél inkább eltérőek legyenek.

A különböző, de pontos eredmények elérésének számos módja van. Általában különböző hálótípusokat alkalmazhatunk, vagy ha az összes háló azonos típusú, akkor a hálók méretében vagy a tanítókészlet összeállításában, esetleg a tanítás módjában lehet különbség. Különböző megoldást kaphatunk akkor is, ha eltérő kezdeti értékeket alkalmazunk.

A hálóegyütteseknél a túlilleszkedés − amit az egyedi hálók esetében hátrányként említettünk − még előnyös is lehet. Ez azt jelenti, hogy a regularizáció szerepe, mely a túltanulás veszélyét hivatott mérsékelni itt kevésbé fontos.

Bár az eddigiekben mindig hálóegyüttesről beszéltünk, egy moduláris rendszer létrehozásánál az egyes megoldások akár eltérő megközelítés alkalmazásával is születhetnek. Például neuronhálós megoldások mellett fuzzy, szabályalapú, vagy más alapokon nyugvó megoldások együttesét is kialakíthatjuk. Ilyenkor hálóegyüttes helyett inkább szakértőegyüttesről beszélhetünk.

9.2.3. MOE (Mixture Of Experts) architektúra

A MOE (Mixture Of Experts) [Jac91], [Jor94] architektúra egy olyan speciális hálóegyüttes (szakértőegyüttes), ahol az előbbiekben bemutatott hálóegyütteshez hasonlóan szintén az egyes hálók válaszainak súlyozott összegeként kapjuk az eredő választ, azonban itt a súlyokat nem rögzítjük, hanem egy ún. kapuzóhálózat kimenetén nyerjük. Ellentétben ugyanis az eddigiekben vizsgált hálóegyüttesektől, amelyekben a mintahalmazra adott válaszok alapján egy általánosan minden bemenet esetén használt (az adott feladatra konstans) súlykészletet határozunk meg, itt a súlyok közvetlenül függnek a bemenettől is. A kapuzóhálózat valójában maga is egy nemlineáris több-bemenetű−többkimenetű tanítható rendszer, mely bemenetként szintén a háló bemeneteit kapja, kimenetként pedig a súlyozó együtthatók értékeit, a kapuzóértékeket szolgáltatja.

A MOE specialitását részben épp ez a kapuzóhálózat adja, hiszen ennek kialakítása biztosítja, hogy az előzőekben tárgyalt hálóegyüttestől eltérően itt a modulok kimeneteit nem fix súlyozással fogjuk össze, hanem bemenetfüggő kapuzóértékekkel. A bemenetfüggő súlyozás indítéka nyilvánvaló: feltételezhető, hogy az egyes szakértők a bemeneti tér különböző tartományain különböző minőségben oldják meg a feladatot, így, ha az egyes szakértőknek az eredő kimenethez való hozzájárulását a teljes feladatra azonos módon rögzítenénk, biztosan nem kapnánk optimális megoldást. Célszerűbb, ha megengedjük, hogy az egyes szakértők szerepe bemenetfüggő legyen, vagyis az eredő válaszhoz való hozzájárulásuk a problématér egyes tartományaiban kisebb, más tartományaiban pedig nagyobb legyen. A bemenetfüggő súlyozás a részeredmények rugalmas aggregálását teszi lehetővé, hiszen ebbe a keretbe belefér az is, ha a választ a szakértők válaszának egyszerű átlagaként kapjuk, és az is, ha egyes tartományokban az eredő választ csak egyetlen háló határozza meg.

A kapuzóértékek maguk is függvényei a bemenetnek, sőt a kapcsolat a bemenet és a kapuzóértékek között nemlineáris, ezért a MOE architektúra akkor is nemlineáris leképezést valósít meg, ha az egyes szakértők önmagukban lineárisak. A MOE architektúránál általában meg is engedjük, hogy az egyes szakértők egyszerű felépítésűek, pl. lineáris hálózatok legyenek. A továbbiakban azonban a bemenetek és a kimenetek között az általánosabb

y i =f(x, Θ i ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCyEamaaBaaaleaacaWGPbaabeaakiabg2da9iaadAgacaqGOaGaaCiEaiaacYcacaWHyoWaaSbaaSqaaiaadMgaaeqaaOGaaeykaaaa@3ED0@ i=1,2,…,M, (9.27)

kapcsolatot tételezünk fel, ami valamilyen statikus, lineáris vagy nemlineáris leképezést jelent, de dinamikus hálókból is képezhetünk szakértőegyüttest (ld. pl. [Zee97]). A (9.27) összefüggésben Θ i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiMdmaaBaaaleaacaWGPbaabeaaaaa@37A7@ az i-edik szakértő paramétereit összefogó mátrixot jelöli.

A MOE hálózatnál minden szakértő a teljes feladatot oldja meg, így az eredmény az egyes modulok közötti versengés és együttműködés eredményeként születik meg.

9.7. ábra - A MOE (Mixture of Experts) architektúra
A MOE (Mixture of Experts) architektúra

A hálózat felépítését a 9.7 ábra mutatja. Az x bemenetet mindegyik szakértő (egyedi háló) és a kapuzó hálózat is megkapja. Az i-edik háló kimenetét yi jelöli, míg y lesz a teljes hálóegyüttes kimenete. A súlyozott összeg képzéséhez a gi súlyokat a kapuzóhálózat állítja elő.

A teljes szakértőegyüttes kimenete ennek megfelelően:

y= i=1 M g i y i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCyEaGGabiab=1da9maaqahabaGaam4zamaaBaaaleaacaWGPbaabeaaaeaacaWGPbGaeyypa0JaaGymaaqaaiaad2eaa0GaeyyeIuoakiaahMhadaWgaaWcbaGaamyAaaqabaaaaa@4159@ . (9.28)

A többdimenziós kimenet (9.28) összefüggése azt jelzi, hogy a kimenet egyes komponenseinek azonos a súlyozása, tehát a kapuzóhálózatot nem komponensenként, hanem a teljes kimeneti vektorra együtt alkalmazzuk. A MOE architektúránál is kikötjük, hogy a gi kapuzóértékekre teljesüljenek az alábbi feltételek:

i=1 M g i =1és0 g i 1  i=1,2,,M MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaaabCaeaacaWGNbWaaSbaaSqaaiaadMgaaeqaaaqaaiaadMgacqGH9aqpcaaIXaaabaGaamytaaqdcqGHris5aOGaeyypa0JaaGymaiaayIW7caaMi8UaaGjcVlaayIW7caaMi8UaaGjcVlaayIW7caaMi8UaaGjcVlaayIW7caaMi8UaaGjcVlaayIW7caaMi8UaaGjcVlaayIW7caaMi8Uaaey6aiaabohacaaMi8UaaGjcVlaayIW7caaMi8UaaGjcVlaayIW7caaMi8UaaGjcVlaayIW7caaMi8UaaGjcVlaayIW7caaMi8UaaGjcVlaayIW7caaMi8UaaGjcVlaayIW7caaMi8UaaGjcVlaayIW7caaMi8UaaGjcVlaayIW7caaIWaGaeyizImQaam4zamaaBaaaleaacaWGPbaabeaakiabgsMiJkaaigdacaaMi8UaaGjcVlaayIW7caaMi8UaaGjcVlaayIW7caaMi8UaaGjcVlaayIW7caaMi8UaaGjcVlaayIW7caaMi8UaaGjcVlaayIW7caqGGaGaaeiiaiaadMgacqGH9aqpcaqGXaGaaeilaiaayIW7caaMi8UaaeOmaiaabYcacaaMi8UaaGjcVlabgAci8kaabYcacaaMi8UaaGjcVlaayIW7caWGnbaaaa@B402@ (9.29)

Ezeknek a feltételeknek a háló működésének valószínűségi értlemezésénél lesz szerepük.

A (9.29) feltételeknek eleget tevő kapuzóértékeket sokféleképpen elő lehet állítani. A MOE hálózatnál leggyakrabban az ún. „szoftmax” függvényt alkalmazzuk:

g i = e ξ i j=1 M e ξ j MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaam4zamaaBaaaleaacaWGPbaabeaakiabg2da9maalaaabaGaamyzamaaCaaaleqabaGaeqOVdG3aaSbaaWqaaiaadMgaaeqaaaaaaOqaamaaqahabaGaamyzamaaCaaaleqabaGaeqOVdG3aaSbaaWqaaiaadQgaaeqaaaaaaSqaaiaadQgacqGH9aqpcaaIXaaabaGaamytaaqdcqGHris5aaaaaaa@4648@ , (9.30)

ahol a ξi közbenső változót az x bemenővektor és egy vi paramétervektor skalár szorzataként kapjuk: ξ i = v i T x MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqOVdG3aaSbaaSqaaiaadMgaaeqaaOGaeyypa0JaaCODamaaDaaaleaacaWGPbaabaGaamivaaaakiaahIhaaaa@3D54@ .

A szoftmax függvény hatása valójában az lesz, hogy a MOE a bemeneti tartományt „lágyan” particionálja, olyan tartományokat határoz meg, melyekhez eltérő kapuzóértékek tartoznak, de amely tartományok határai általában elmosódottak. (A gi értékek az i-edik szakértő esetén tipikusan egy tartományon dominánsak, közel 1 értékűek, de nem változnak meredeken sem 0→1, sem 1→0 irányban a tartomány határain.) A MOE architektúra ezért úgy is felfogható, mintha a feladatot a bemeneti tér particionálása alapján dekomponáltuk volna, ahol azonban a particionálás nem éles határokkal történik.

A lágy particionálás könnyen interpretálható egy olyan architektúra esetén, ahol csak két szakértőnk van. Az ezekhez tartozó két kapuzóérték g1 és g2. Írjuk fel g1 kifejezését (nyilvánvalóan g2 = 1− g1):

g 1 = e ξ 1 e ξ 1 + e ξ 2 = 1 1+ e ( v 1 v 2 ) T x MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqkLspG0dg9v8qqaqFD0xXdHaVhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWGNbWaaSbaaSqaaiaaigdaaeqaaOGaeyypa0ZaaSaaaeaacaWGLbWaaWbaaSqabeaacqaH+oaEdaWgaaadbaGaaGymaaqabaaaaaGcbaGaamyzamaaCaaaleqabaGaeqOVdG3aaSbaaWqaaiaaigdaaeqaaaaakiabgUcaRiaadwgadaahaaWcbeqaaiabe67a4naaBaaameaacaaIYaaabeaaaaaaaOGaeyypa0ZaaSaaaeaacaaIXaaabaGaaGymaiabgUcaRiaadwgadaahaaWcbeqaaiabgkHiTmaabmaabaGaaCODamaaBaaameaacaaIXaaabeaaliabgkHiTiaahAhadaWgaaadbaGaaGOmaaqabaaaliaawIcacaGLPaaadaahaaadbeqaaiaadsfaaaWccaWH4baaaaaaaaa@560C@ (9.31)

ami láthatóan egy olyan logisztikus gerincfüggvény (logistic ridge function), melynek orientációját a v1-v2 vektor iránya szabja meg. Mindazon x-ekre, melyek (v1-v2)-re merőlegesek a két kapuzóérték megegyezik: g1 = g2 = 1/2, vagyis ezekre a bemenetekre, melyeknél a logisztikus függvény gerince található, a MOE válasza a két szakértő válaszának átlaga. A gerinctől távolodva az egyik irányban az első szakértő, a másik irányban a második szakértő szerepe kezd nőni, mindig a másik szakértő rovására. A gerinc meredeksége v2-v1 nagyságától függ. Ha v2-v1 nagy, a gerinc meredek, a két szakértő szerepe élesen elhatárolódik egymástól, míg kis értéknél az elválasztás lágy, a szakértők „kompetencia-területei” erősen átlapolódnak.

A MOE architektúra többszintű, hierarchikus hálóegyüttessé is kiterjeszthető, amikor a szakértőkből több csoportot alkotunk és ezeket a csoportokat külön-külön egy-egy MOE architektúrába fogjuk össze, majd a MOE kimenetekből egy újabb kapuzóhálózattal állítjuk elő a hierarchikus rendszer kimenetét. A hierarchikus MOE (HMOE) tehát nem a szakértőkből képez hierarchikus rendszert, hanem a kapuzóhálózatokból. A HMOE egy fa struktúrájú moduláris háló, melynek csak a leveleinél vannak szakértő modulok.

A MOE tanítása

A MOE architektúrának két, tanítással meghatározandó paraméter-készlete van. A Θ i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiMdmaaBaaaleaacaWGPbaabeaaaaa@37A7@ paramétermátrixok a szakértők szabad paramétereiből állnak, míg a vi vektorok a szoftmax függvényen keresztül határozzák meg a kapuzóhálózat leképezését. A tanítást most is egy Z= { z l } l=1 L = { ( x l , d l ) } l=1 L MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqkLspG0dg9v8qqaqFD0xXdHaVhbbf9v8qqaqFr0xc9pk0xbba9q8WqFfea0=yr0RYxir=Jbba9q8aq0=yq=He9q8qqQ8frFve9Fve9Ff0dmeaabaqaciGacaGaaeqabaWaaeaaeaaakeaacaWGAbGaeyypa0ZaaiWaaeaacaWH6bWaa0baaSqaaiaadYgaaeaaaaaakiaawUhacaGL9baadaqhaaWcbaGaamiBaiabg2da9iaaigdaaeaacaWGmbaaaOGaeyypa0ZaaiWaaeaadaqadaqaaiaahIhadaWgaaWcbaGaamiBaaqabaGccaGGSaGaaCizamaaBaaaleaacaWGSbaabeaaaOGaayjkaiaawMcaaaGaay5Eaiaaw2haamaaDaaaleaacaWGSbGaeyypa0JaaGymaaqaaiaadYeaaaaaaa@5049@ tanítópontkészlet alapján tudjuk elvégezni.

A háló tanítása többféle megközelítésben is lehetséges. Amennyiben az egyes szakértők neuronhálók, mind a Θ i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiMdmaaBaaaleaacaWGPbaabeaaaaa@37A7@ szakértő-paraméterek, mind a vi kapuzóhálózat-paraméterek a speciális MOE architektúrára alkalmazott hibavisszaterjesztéses algoritmussal taníthatók, hiszen a kimenet mind a Θ i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiMdmaaBaaaleaacaWGPbaabeaaaaa@37A7@ , mind a vi paraméterek folytonos függvénye. Ha a tanításnak ezt a megközelítését alkalmazzuk, akkor a MOE valójában nem több, mint egy speciális felépítésű komplex hálóarchitektúra. Ebben a megközelítésben a kapuzóértékekre megfogalmazott (9.29) feltételeknek nincs is különösebb jelentőségük, a feltételektől akár el is tekinthetünk. Ennél érdekesebb azonban, ha az architektúrához valószínűségi értelmezést rendelünk. A valószínűségi értelmezés a háló működését új megvilágításba helyezi, sőt a háló tanítása is más értelmezést nyer. A valószínűségi értelmezés mellett a háló tanítása maximum likelihood becslési problémaként fogalmazható meg. A következőkben ezt az interpretációt és az ennek megfelelő tanítási eljárást foglaljuk össze.

Tanítás valószínűségi értelmezés alapján

A valószínűségi értelmezésben mind a kapuzóhálózatok, mind a szakértők szerepe megváltozik. A kapuzóhálózat úgy is felfogható, mint egy olyan osztályozó, ami az x bemenővektort egy multinomiális valószínűségi változóra képezi le. A kapuzóértékekre megfogalmazott (9.29) feltételek biztosítják, hogy a gi értékek valószínűségekként is értelmezhetők legyenek. gi értelmezhető, mint az a valószínűség, hogy a kimenet az i-edik szakértőtől származik:

g i =P(i|x, v i ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaam4zamaaBaaaleaacaWGPbaabeaakiabg2da9iaadcfacaWHOaGaamyAaiaacYhacaWH4bGaaiilaiaahAhadaWgaaWcbaGaamyAaaqabaGccaWHPaaaaa@4079@ (9.32)

A kapuzóhálózat szerepe ekkor azt eldönteni, hogy melyik szakértő kimenete kerüljön ki a teljes moduláris rendszer kimenetére. A HMOE esetében több döntési szintet különböztethetünk meg, tehát egy hierarchikus döntési szekvencia eredménye az, hogy a kimenet melyik szakértőtől származik. Amennyiben ez a döntés vagy döntés-sorozat megszületett, feltételezhetjük, hogy a d kimenetet egy statisztikai modell generálta. Ez azt jelenti, hogy d valószínűségi változónak tekinthető, melyet valamilyen P valószínűség-sűrűségfüggvénnyel jellemezhetünk. Ennek megfelelően az egyes szakértőkhöz is valószínűségi értelmezés rendelhető és egy szakértő kimenete úgy interpretálható, mint a d valószínűségi változó feltételes várható értéke.

Ha a kimenet származtatását e szerint a valószínűségi értelmezés szerint nézzük, akkor először a szakértők válaszát kell tekintenünk. Egy szakértő a valószínűségi modell alapján az

y i =E( d|x, Θ i ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCyEamaaBaaaleaacaWGPbaabeaakiabg2da9iaadweadaqadaqaaGqabiaa=rgacaGG8bGaa8hEaiaacYcacaWHyoWaaSbaaSqaaiaadMgaaeqaaaGccaGLOaGaayzkaaaaaa@40C8@ (9.33)

feltételes várhatóértéknek megfelelően állít elő egy kimenetet, ahol a várhatóérték-képzést egy P( d|x, Θ i ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiuamaabmaabaacbeGaa8hzaiaacYhacaWF4bGaaiilaiaahI5adaWgaaWcbaGaamyAaaqabaaakiaawIcacaGLPaaaaaa@3DA7@ feltételes sűrűségfüggvény szerint képezzük. A következő lépésben egy szakértőkimenet a kapuzóértéknek megfelelő valószínűséggel kerül a teljes háló kimenetére (vagy HMOE esetében a következő hierarchiaszintre).

Ebből a valószínűségi modellből kiindulva annak valószínűsége, hogy adott xl bemenetre dl választ kapunk a teljes valószínűségek tétele alapján az alábbi formában írható fel:

P( d l | x l , Θ )= i g i ( x l , v i )P( d l | x l , Θ i )                     =  i P( i| x l , v i )P( d l | x l , Θ i ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGceaqabeaacaWGqbWaaeWaaeaacaWHKbWaaSbaaSqaaiaadYgaaeqaaOGaaiiFaiaahIhadaWgaaWcbaGaamiBaaqabaGccaGGSaGaaCiMdmaaCaaaleqabaGaey4fIOcaaaGccaGLOaGaayzkaaGaeyypa0ZaaabuaeaacaWGNbWaaSbaaSqaaiaadMgaaeqaaOWaaeWaaeaacaWH4bWaaSbaaSqaaiaadYgaaeqaaOGaaiilaiaahAhadaqhaaWcbaGaamyAaaqaaiabgEHiQaaaaOGaayjkaiaawMcaaiaadcfadaqadaqaaiaahsgadaWgaaWcbaGaamiBaaqabaGccaGG8bGaaCiEamaaBaaaleaacaWGSbaabeaakiaacYcacaWHyoWaa0baaSqaaiaadMgaaeaacqGHxiIkaaaakiaawIcacaGLPaaaaSqaaiaadMgaaeqaniabggHiLdaakeaacaqGGaGaaeiiaiaabccacaqGGaGaaeiiaiaabccacaqGGaGaaeiiaiaabccacaqGGaGaaeiiaiaabccacaqGGaGaaeiiaiaabccacaqGGaGaaeiiaiaabccacaqGGaGaaeiiaiabg2da9iaabccadaaeqbqaaiaadcfadaqadaqaaiaadMgacaGG8bGaaCiEamaaBaaaleaacaWGSbaabeaakiaacYcacaWH2bWaa0baaSqaaiaadMgaaeaacqGHxiIkaaaakiaawIcacaGLPaaacaWGqbWaaeWaaeaacaWHKbWaaSbaaSqaaiaadYgaaeqaaOGaaiiFaiaahIhadaWgaaWcbaGaamiBaaqabaGccaGGSaGaaCiMdmaaDaaaleaacaWGPbaabaGaey4fIOcaaaGccaGLOaGaayzkaaaaleaacaWGPbaabeqdcqGHris5aaaaaa@805A@ (9.34)

A (9.34) összefüggésben a paraméterek melletti * azt jelzi, hogy itt a paraméterek „igazi”, de számunkra ismeretlen értékei szerepelnek. A Θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiMdmaaCaaaleqabaGaey4fIOcaaaaa@37A9@ az összes szakértő Θ i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiMdmaaDaaaleaacaWGPbaabaGaey4fIOcaaaaa@3897@ paramétereit összefogó eredő paramétermátrix. Amennyiben az igazi értékek helyett valamilyen Θ i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiMdmaaBaaaleaacaWGPbaabeaaaaa@37A7@ és vi paramétereink vannak, az l-edik tanítóponthoz tartozó bemenet és kimenet közötti valószínűségi kapcsolatot a

P( d l | x l ,Θ )= i P( i| x l , v i )P( d l | x l , Θ i ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiuamaabmaabaGaaCizamaaBaaaleaacaWGSbaabeaakiaacYhacaWH4bWaaSbaaSqaaiaadYgaaeqaaOGaaiilaiaahI5aaiaawIcacaGLPaaacqGH9aqpdaaeqbqaaiaadcfadaqadaqaaiaadMgacaGG8bGaaCiEamaaBaaaleaacaWGSbaabeaakiaacYcacaWH2bWaaSbaaSqaaiaadMgaaeqaaaGccaGLOaGaayzkaaGaamiuamaabmaabaGaaCizamaaBaaaleaacaWGSbaabeaakiaacYhacaWH4bWaaSbaaSqaaiaadYgaaeqaaOGaaiilaiaahI5adaWgaaWcbaGaamyAaaqabaaakiaawIcacaGLPaaaaSqaaiaadMgaaeqaniabggHiLdaaaa@56C7@ (9.35)

feltételes sűrűségfüggvény adja meg. A teljes tanítókészletre is felírhatjuk a valószínűségi kapcsolatot:

P( d|x,Θ )= l=1 L P( d l | x l ,Θ )= l=1 L [ i=1 M P( i| x l , v i )P( d l | x l , Θ i ) ] MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiuamaabmaabaGaaCizaiaacYhacaWH4bGaaiilaiaahI5aaiaawIcacaGLPaaacqGH9aqpdaqeWbqaaiaadcfadaqadaqaaiaahsgadaWgaaWcbaGaamiBaaqabaGccaGG8bGaaCiEamaaBaaaleaacaWGSbaabeaakiaacYcacaWHyoaacaGLOaGaayzkaaGaeyypa0daleaacaWGSbGaeyypa0JaaGymaaqaaiaadYeaa0Gaey4dIunakmaarahabaWaamWaaeaadaaeWbqaaiaadcfadaqadaqaaiaadMgacaGG8bGaaCiEamaaBaaaleaacaWGSbaabeaakiaacYcacaWH2bWaaSbaaSqaaiaadMgaaeqaaaGccaGLOaGaayzkaaGaamiuamaabmaabaGaaCizamaaBaaaleaacaWGSbaabeaakiaacYhacaWH4bWaaSbaaSqaaiaadYgaaeqaaOGaaiilaiaahI5adaWgaaWcbaGaamyAaaqabaaakiaawIcacaGLPaaaaSqaaiaadMgacqGH9aqpcaaIXaaabaGaamytaaqdcqGHris5aaGccaGLBbGaayzxaaaaleaacaWGSbGaeyypa0JaaGymaaqaaiaadYeaa0Gaey4dIunaaaa@6F0D@ (9.36)

A (9.36) összefüggés annak valószínűségét adja meg, hogy az adott xl bemenet mellett a megfelelő dl kívánt választ kapjuk (l=1,2,…,L), feltéve, ha a szakértőink paramétermátrixai a Θ i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiMdmaaBaaaleaacaWGPbaabeaaaaa@37A7@ mátrixok, a kapuzóhálózatunk paramétervektorai pedig a vi vektorok (i=1,2,…,M).

A (9.36) összefüggés képezi a paraméterek meghatározásának, a MOE tanításának az alapját. Keressük ugyanis azokat a Θ i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiMdmaaBaaaleaacaWGPbaabeaaaaa@37A7@ mátrixokat és vi vektorokat, melyek mellett a (9.36) valószínűség-sűrűségfüggvény épp az adott tanítóponthalmaz esetén veszi fel a maximumát. A feladatot tehát visszavezettük egy maximum likelihood becslési problémára, ahol a likelihood függvényt épp (9.36) adja meg. A tanító összefüggések meghatározásának további lépéseiben a likelihood függvény helyett célszerű annak logaritmusával, a log-likelihood függvénnyel dolgozni.

L( x,Θ )=log P( d|x,Θ )= l=1 L log [ i=1 M P( i| x l , v i )P( d l | x l , Θ i ) ] MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqef00BU9gD5bxzGm0BYnxA2fgaiuaacaWFmbWaaeWaaeaacaWH4bGaaiilaiaahI5aaiaawIcacaGLPaaacqGH9aqpcaqGSbGaae4BaiaabEgacaqGGaGaamiuamaabmaabaGaaCizaiaacYhacaWH4bGaaiilaiaahI5aaiaawIcacaGLPaaacqGH9aqpdaaeWbqaaiaabYgacaqGVbGaae4zaaWcbaGaamiBaiabg2da9iaabgdaaeaacaWGmbaaniabggHiLdGcdaWadaqaamaaqahabaGaamiuamaabmaabaGaamyAaiaacYhacaWH4bWaaSbaaSqaaiaadYgaaeqaaOGaaiilaiaahAhadaWgaaWcbaGaamyAaaqabaaakiaawIcacaGLPaaacaWGqbWaaeWaaeaacaWHKbWaaSbaaSqaaiaadYgaaeqaaOGaaiiFaiaahIhadaWgaaWcbaGaamiBaaqabaGccaGGSaGaaCiMdmaaBaaaleaacaWGPbaabeaaaOGaayjkaiaawMcaaaWcbaGaamyAaiabg2da9iaaigdaaeaacaWGnbaaniabggHiLdaakiaawUfacaGLDbaaaaa@71CE@ (9.37)

A maximum likelihood becsléseredményét a (log-)likelihood függvény maximumát biztosító paramétervektorok szolgáltatják. A szélsőérték-keresést itt is gradiens módszerrel végezve meg kell határoznunk a

L( x,Θ ) Θ i =0 MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaaSaaaeaacqGHciITruqtV52B0LhCLbYqVj3CPzxyaGqbaiaa=XeadaqadaqaaiacWc4H4bGaialGcYcacaWHyoaacaGLOaGaayzkaaaabaGaeyOaIyRaaGjcVlaayIW7caWHyoWaa0baaSqaaiaadMgaaeaaaaaaaOGaeyypa0JaaCimaaaa@4D7F@ és a L( x,Θ ) v i =0 MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaaSaaaeaacqGHciITruqtV52B0LhCLbYqVj3CPzxyaGqbaiaa=XeadaqadaqaaiacWc4H4bGaialGcYcacaWHyoaacaGLOaGaayzkaaaabaGaeyOaIyRaiGpGhAhadGa+aUbaaSqaiGpGcGa+aoyAaaqajGpGaaaakiabg2da9iaahcdaaaa@51B7@ (9.38)

likelihood egyenletek megoldásait. (Itt a Θ i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiMdmaaBaaaleaacaWGPbaabeaaaaa@37A7@ mátrixokat formálisan vektorrá alakítva használjuk.) A gradiens-számításnál alkalmazva a láncszabályt a Θ i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiMdmaaBaaaleaacaWGPbaabeaaaaa@37A7@ szerinti gradienst yi-n keresztül, a vi szerinti gradienst pedig ξi-n keresztül határozhatjuk meg:

L( x,Θ ) Θ i = L( x,Θ ) y i y i Θ i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaaSaaaeaacqGHciITruqtV52B0LhCLbYqVj3CPzxyaGqbaiaa=XeadaqadaqaaiacWc4H4bGaialGcYcacaWHyoaacaGLOaGaayzkaaaabaGaeyOaIyRaaGjcVlaayIW7caWHyoWaa0baaSqaaiaadMgaaeaaaaaaaOGaeyypa0ZaaSaaaeaacqGHciITcaWFmbWaaeWaaeaacGaSaEiEaiacWcOGSaGaaCiMdaGaayjkaiaawMcaaaqaaiabgkGi2kaahMhadaWgaaWcbaGaamyAaaqabaaaaOWaaSaaaeaacqGHciITcaWH5bWaaSbaaSqaaiaadMgaaeqaaaGcbaGaeyOaIyRaaGjcVlaayIW7caWHyoWaa0baaSqaaiaadMgaaeaaaaaaaaaa@63C6@ és L( x,Θ ) v i = L( x,Θ ) ξ i ξ i v i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaaSaaaeaacqGHciITruqtV52B0LhCLbYqVj3CPzxyaGqbaiaa=XeadaqadaqaaiacWc4H4bGaialGcYcacaWHyoaacaGLOaGaayzkaaaabaGaeyOaIyRaaGjcVlaayIW7caWH2bWaaSbaaSqaaiaadMgaaeqaaaaakiabg2da9maalaaabaGaeyOaIyRaa8htamaabmaabaGaialGhIhacGaSakilaiaahI5aaiaawIcacaGLPaaaaeaacqGHciITcqaH+oaEdaWgaaWcbaGaamyAaaqabaaaaOWaaSaaaeaacqGHciITcqaH+oaEdaWgaaWcbaGaamyAaaqabaaakeaacqGHciITcaaMi8UaaGjcVlaahAhadaWgaaWcbaGaamyAaaqabaaaaaaa@64FC@ (9.39)

A részletektől eltekintve – feltételezve, hogy a valószínűségi interpretációban Gauss eloszlásunk van – a gradiens eljárás eredményeképp a következő tanító összefüggéseket nyerjük:

Θ i ( k+1 )= Θ i ( k )+η l=1 L h i,l ( d l y i,l ) y i,l Θ i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiMdmacyc4gaaWcbGaMakacyc4GPbaabKaMacGcdaqadaqaaiaadUgacqGHRaWkcaaIXaaacaGLOaGaayzkaaGaeyypa0JaaCiMdmacyc4gaaWcbGaMakacyc4GPbaabKaMacGcdaqadaqaaiaadUgaaiaawIcacaGLPaaacqGHRaWkcqaH3oaAdaaeWbqaaiaadIgadaqhaaWcbaGaamyAaiaacYcacaWGSbaabaaaaOWaaeWaaeaacaWHKbWaaSbaaSqaaiaadYgaaeqaaOGaeyOeI0IaaCyEamaaBaaaleaacaWGPbGaaiilaiaadYgaaeqaaaGccaGLOaGaayzkaaaaleaacaWGSbGaeyypa0JaaGymaaqaaiaadYeaa0GaeyyeIuoakmaalaaabaGaeyOaIyRaaGjcVlaayIW7caWH5bWaaSbaaSqaaiaadMgacaGGSaGaamiBaaqabaaakeaacaaMi8UaaGjcVlabgkGi2kaayIW7caaMi8UaaCiMdmaaBaaaleaacaWGPbaabeaaaaaaaa@7136@ (9.40)

és

v i ( k+1 )= v i ( k )+η l=1 L ( h i,l g i,l ) x l MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCODamaaBaaaleaacaWGPbaabeaakmaabmaabaGaam4AaiabgUcaRiaaigdaaiaawIcacaGLPaaacqGH9aqpcaWH2bWaaSbaaSqaaiaadMgaaeqaaOWaaeWaaeaacaWGRbaacaGLOaGaayzkaaGaey4kaSIaeq4TdG2aaabCaeaadaqadaqaaiaadIgadaqhaaWcbaGaamyAaiaacYcacaWGSbaabaaaaOGaeyOeI0Iaam4zamaaDaaaleaacaWGPbGaaiilaiaadYgaaeaaaaaakiaawIcacaGLPaaaaSqaaiaadYgacqGH9aqpcaaIXaaabaGaamitaaqdcqGHris5aOGaaGjcVlaayIW7caaMi8UaaCiEamaaBaaaleaacaWGSbaabeaaaaa@5A4D@ (9.41)

ahol η jelöli a tanulási tényezőt, yi,l jelöli az i-edik szakértő xl-re adott válaszát, gi,l az i-edik kapuzóértéket az l-edik tanítómintánál, míg hi,l -t az alábbi összefüggés definiálja:

h i,l = P( i| x l , v i )P( d l | x l , Θ i ) j P( j| x l , v j )P( d l | x l , Θ j ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiAamaaBaaaleaacaWGPbGaaiilaiaadYgaaeqaaOGaeyypa0ZaaSaaaeaacaWGqbWaaeWaaeaacaWGPbGaaiiFaiaahIhadaWgaaWcbaGaamiBaaqabaGccaGGSaGaaCODamaaBaaaleaacaWGPbaabeaaaOGaayjkaiaawMcaaiaayIW7caaMi8UaamiuamaabmaabaGaaCizamaaBaaaleaacaWGSbaabeaakmaaeeaabaGaaCiEamaaBaaaleaacaWGSbaabeaakiaacYcacaWHyoWaaSbaaSqaaiaadMgaaeqaaaGccaGLhWoaaiaawIcacaGLPaaaaeaadaaeqbqaaiaadcfadaqadaqaaiaadQgacaGG8bGaaCiEamaaBaaaleaacaWGSbaabeaakiaacYcacaWH2bWaaSbaaSqaaiaadQgaaeqaaaGccaGLOaGaayzkaaGaaGjcVlaayIW7caWGqbWaaeWaaeaacaWHKbWaaSbaaSqaaiaadYgaaeqaaOWaaqqaaeaacaWH4bWaaSbaaSqaaiaadYgaaeqaaOGaaiilaiaahI5adaWgaaWcbaGaamOAaaqabaaakiaawEa7aaGaayjkaiaawMcaaaWcbaGaamOAaaqab0GaeyyeIuoaaaaaaa@6C64@ . (9.42)

A szakértőparaméter tanítására vonatkozó (9.40) összefüggés csak akkor alakítható tovább, ha ismerjük a szakértő felépítését. Lineáris szakértőt feltételezve, ahol a szakértő kimenetét

y i,l = Θ i x l MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCyEamaaBaaaleaacaWGPbGaaiilaiaadYgaaeqaaOGaeyypa0JaaCiMdmaaDaaaleaacaWGPbaabaaaaOGaaCiEamaaBaaaleaacaWGSbaabeaaaaa@3E9D@ (9.43)

adja meg, a súlymódosító összefüggésre a következőt kapjuk:

Θ i ( k+1 )= Θ i ( k )+η l=1 L h i,l ( d l y i,l ) x l T MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiMdmacyc4gaaWcbGaMakacyc4GPbaabKaMacGcdaqadaqaaiaadUgacqGHRaWkcaaIXaaacaGLOaGaayzkaaGaeyypa0JaaCiMdmacyc4gaaWcbGaMakacyc4GPbaabKaMacGcdaqadaqaaiaadUgaaiaawIcacaGLPaaacqGHRaWkcqaH3oaAdaaeWbqaaiaadIgadaqhaaWcbaGaamyAaiaacYcacaWGSbaabaaaaOWaaeWaaeaacaWHKbWaaSbaaSqaaiaadYgaaeqaaOGaeyOeI0IaaCyEamaaBaaaleaacaWGPbGaaiilaiaadYgaaeqaaaGccaGLOaGaayzkaaGaaGjcVlaayIW7aSqaaiaadYgacqGH9aqpcaaIXaaabaGaamitaaqdcqGHris5aOGaaCiEamaaDaaaleaacaWGSbaabaGaamivaaaaaaa@6509@ (9.44)

A (9.44) összefüggést szemügyre véve látható, hogy a szakértő paramétereinek módosítása a szakértő hibájától függ, hiszen az i-edik szakértő kimeneti hibáját az l-edik tanítópontban épp ( d l y i,l MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCizamaaBaaaleaacaWGSbaabeaakiabgkHiTiaahMhadaWgaaWcbaGaamyAaiaacYcacaWGSbaabeaaaaa@3C27@ ) adja meg. Hasonló megállapítás tehető a kapuzóhálózat paraméterének tanító összefüggésére is, ugyanis a (9.41) összefüggés szerint a súlymódosítás hi,l és gi,l eltérésétől függ, ahol ez az eltérés is hibaként értelmezhető.

A MOE mindkét paraméterkészletének súlymódosító összefüggései függnek a (9.42) által definiált hi,l értékektől. Vegyük észre, hogy amennyiben a g i,l =P(i| x l , v i ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaam4zamaaBaaaleaacaWGPbGaaiilaiaadYgaaeqaaOGaeyypa0JaamiuaiaahIcacaWGPbGaaiiFaiaahIhadaWgaaWcbaGaamiBaaqabaGccaGGSaGaaCODamaaBaaaleaacaWGPbaabeaakiaahMcaaaa@4341@ valószínűségeket a priori valószínűségeknek tekintjük, a hi,l értékek az a posteriori valószínűségek. Ez (9.42)-ből a Bayes szabály alkalmazásával közvetlenül adódik. A gi,l kiinduló kapuzóérték ugyanis annak a valószínűségét adja meg, hogy adott xl bemenet mellett az eredő kimenetet az i-edik szakértő válasza határozza meg. gi,l értékét úgy határozzuk meg (vesszük fel), hogy az xl-re adandó kívánt választ, dl-t nem ismerjük. Ezzel szemben hi,l azt az állapotot tükrözi, amikor már dl-t is felhasználtuk, tehát hi,l az l-edik tanító mintapár ismerete utáni állapotra vonatkozik. Ennek megfelelően

h i,l =P(i| x l , d l , v i ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiAamaaBaaaleaacaWGPbGaaiilaiaadYgaaeqaaOGaeyypa0JaamiuaiaahIcacaWGPbGaaiiFaiaahIhadaWgaaWcbaGaamiBaaqabaGccaGGSaGaaCizamaaBaaaleaacaWGSbaabeaakiaacYcacaWH2bWaaSbaaSqaaiaadMgaaeqaaOGaaCykaaaa@4606@ . (9.45)

Az (9.41) és az (9.44) összefüggések kötegelt (batch) tanításra vonatkoznak, vagyis amikor az összes tanítópont felhasználását követően történik a súlymódosítás. Ugyanakkor a MOE tanításánál is alkalmazhatunk mintánkénti súlymódosítást; ekkor a fenti összefüggésekben az l mintapont-index szerinti összegzés elmarad.

A MOE valószínűségi értelmezése lehetővé teszi, hogy a paraméterek meghatározást maximum likelihood paraméterbecslési eljárásra vezessük vissza. A maximum likelihood becslés az előbbiekben bemutatott gradiens alapú eljárásnál hatékonyabban is meghatározható. A MOE architektúrára származtatták az EM (expectation-maximization)[7] alapú eljárást, mely a számítások egyszerűsítését eredményezi. Ennek részleteivel azonban itt nem foglalkozunk, csak a megfelelő irodalomra ([Jor94]) utalunk.

A MOE konstrukciója

A MOE, illetve a HMOE architektúrák konstrukciójánál is meg kell határozni a moduláris rendszer struktúráját. Ez itt a szakértők számának, illetve hierarchikus MOE esetében a hierarchia szintek számának a meghatározását is jelenti. A MOE/HMOE struktúrájának meghatározása a modellválasztás problémakörbe tartozik, így a modellválasztás eddig említett megközelítéseit alkalmazhatjuk. Leginkább az adatokból kiindulva, az eredmények folyamatos tesztelése útján, a kereszt kiértékelés alkalmazásával határozhatjuk meg a megfelelő MOE architektúrát.

HMOE konstrukciójánál gyakran alkalmaznak olyan eljárást, amely bináris fa struktúrájú hierarchikus moduláris rendszert eredményez. Erre ad lehetőséget például a CART (classification and regression tree) [Bre84] alapú eljárás, ahol a feladatot a kívánt válaszok alapján dekomponáljuk egyre kisebb részfeladatokra úgy, hogy az egyes lépésekben a problémateret mindig két részre hasítjuk. A dekomponálás alapja, hogy a problématér különválasztott tartományaihoz tartozó mintapontoknál a kívánt válaszok szórása minél kisebb legyen. A hierarchikus dekompozíció egy HMOE architektúrát eredményez, annak ellenére, hogy az egyes szakértők tulajdonképpen továbbra is a teljes feladatot oldják meg.

A MOE architektúráját nagymértékben befolyásolja, hogy az egyes szakértők milyen felépítésűek. Tipikus választás az egyszerű lineáris szakértő. Ebben az esetben az eredő feladat valójában szakaszonként lineáris működést valósít meg, ahol azonban az átmenet az egyes szakaszok között a szoftmax kapuzó függvények következtében folytonos és „legömbölyített”.

Bonyolult, komplex leképezésre képes szakértő modulok alkalmazása már csak azért sem célszerű, mert ekkor nagy a veszélye annak, hogy akár egyetlen szakértő is meg tudja oldani a feladatot. Ha ilyen eset áll elő, akkor ennek az egyetlen szakértőnek megfelelő kapuzóérték a teljes problématéren közel 1 értéket vesz fel, ami ennek a szakértőnek a hasznosítását és a többi indokolatlan alkalmazását jelenti. Az egyszerűbb képességű szakértők „garantálják”, hogy külön-külön egyikük sem képes a feladat megoldására, együttműködésükre feltétlenül szükség van. A MOE előnyei akkor érvényesülnek, ha a feladat valóban megoszlik az egyes szakértők között. Az előnyök között elsősorban a gyorsabb tanulást kell megemlíteni, de az egyszerű szakértők miatt általában az egész hálózat komplexitása is jóval kisebb lehet, mint egy hasonló képességű egyedi hálózaté.



[7] Az EM-algoritmus rövid összefoglalását a 13. fejezetben adjuk meg.