4.1. Az MLP felépítése

A többrétegű hálózatok felépítésea 4.1 ábrán követhető. Az ábra egy két aktív réteget tartalmazó hálózatot mutat, amelyben az első aktív rétegben − a rejtett rétegben − három, a második aktív rétegben − jelen esetben a kimeneti rétegben − két processzáló elem található. A hálózat tehát egy többrétegű előrecsatolthálózat. Az 1. fejezetben láttuk, hogy egy megfelelő méretű, többrétegű, szigmoid nemlinearitásokat tartalmazó hálózat − a súlyvektorok kialakítása után − tetszőleges folytonos nemlineáris függvény tetszőleges pontosságú approximációjára képes. A súlyvektorok meghatározása összetartozó ${x_{i}, d_{i}}_{i = 1}^{P}$ tanítópont-párok felhasználásával ellenőrzött tanuló eljárással történik.

A háló bemutatásához vezessük be a következő jelöléseket: egy L információ-feldolgozást végző rétegből álló MLP-nél az egyes rétegeket felső indexszel (l=1, 2, …, L) különböztetjük meg. A rétegen belüli processzáló elemekhez (PE) az i indexet rendeljük, míg j a PE bemeneteit megkülönböztető index jelölésére szolgál − ez lesz egyben a megfelelő súlyvektor komponenseinek indexe is. (Pl. ${PE}_{i}^{(l)}$ az l-edik réteg i-edik processzáló elemét, neuronját jelöli, $w_{i}^{(l)}$ ennek a neuronnak a súlyvektorát, míg $w_{i j}^{(l)}$ ugyanezen súlyvektornak az j-edik komponensét jelöli.) A neuronok bemeneteire kerülő jeleket x-szel, a kimeneti jeleket y-nal jelöljük, szintén alkalmazva a réteg- és a rétegen belüli indexeket. Így pl. $x_{i j}^{(l)}$ az l-edik neuronréteg i-edik processzáló elemének j-edik bemenetére kerülő jelet jelöli. A kimeneteknél megkülönböztetjük a súlyozott összegző kimenetét (lineáris kimenet) a neuron nemlineáris kimenetétől. A lineáris kimenetet az eddigi jelöléseknek megfelelően s-sel jelöljük. Egy MLP tetszőleges számú rejtett réteget használhat, és mint ahogy a hálók képességeit tárgyaló 1. fejezetben láttuk, ahhoz, hogy univerzális approximátor képességgel rendelkezzen, legalább egy szigmoid nemlinearitással rendelkező rejtett réteget kell tartalmaznia. A kimeneti réteg lehet lineáris, de lehet nemlineáris is. Az MLP bemutatásánál az általánosabb tárgyalás érdekében feltételezzük, hogy nemlineáris kimeneti réteget használunk.

4.1. ábra - A többrétegű perceptron felépítése a hibaszámítással

A fenti felépítésnek megfelelően − összhangban az (1.6.) összefüggéssel − az MLP bemenet-kimenet leképezése − ha mindegyik nemlineáris rétegben azonos a nemlineáritás − a következő:

$y = f (W^{(L)} f (W^{(L - 1)} ... f (W^{(1)} x)))$ , (4.1)

ahol W^(l) az l-edik réteg neuronjainak súlyvektorait összefogó mátrix, f(.) pedig az egy réteghez tartozó neuronok kimenetein értelmezendő szigmoid függvényeket jelöli. Egy MLP, még a legegyszerűbb esetben is, amikor csak egy rejtett réteget tartalmaz, paramétereiben nemlineáris leképezést valósít meg.

Az MLP tanítása ellenőrzött tanítás, ahol a hálózat kimenetén értelmezett hiba felhasználásával határozhatjuk meg a kritériumfüggvény vagy kockázat paraméterfüggését. Bár az MLP-nél is szinte kizárólag négyzetes hibafüggvényt szoktak alkalmazni, a nemlineáris paraméterfüggés miatt a hibafelület nem lesz kvadratikus. Mindössze abban lehetünk biztosak, hogy a hibafelület a tanítandó paraméterek folytonos, differenciálható függvénye, ami a gradiens alapú tanuló algoritmusok alkalmazását lehetővé teszi.

A következőkben az MLP-tanításánál leggyakrabban alkalmazott hibavisszaterjesztéses vagy back-propagation eljárást fogjuk bemutatni, ami szintén gradiens alapú tanító eljárás.

Mesterséges Intelligencia Elektronikus Almanach

Elsődleges linkek

4.1. Az MLP felépítése