20.8. Összefoglalás

A statisztikai tanulás módszerei széles skálán helyezkednek el: az egyszerű átlagszámításoktól a bonyolult modellek – mint például a Bayes-hálók vagy neurális hálók – konstruálásáig. Alkalmazási területük a számítógép-tudományra, a mérnöki alkalmazásokra, a neurobiológiára, a pszichológiára és a fizikára is kiterjed. Ebben a fejezetben bemutattunk néhány alapelvet, és ízelítőt adtunk a matematikai tárgyalásból. A következő fő pontok szerepeltek:

  • A Bayes-tanulási (Bayesian learning) módszerek a tanulást valószínűségi következtetésként fogalmazzák meg, a megfigyelések alapján frissítve a hipotézisek a priori eloszlásait. Ez a megközelítés jó eszköz az Ockham borotvája elv megvalósítására, de bonyolult hipotézisterek esetén hamar kezelhetetlenné válik.

  • A maximum a posteriori (MAP) tanulás az adatok alapján választ ki egyetlen, a legvalószínűbb hipotézist. A hipotézis priort itt is használjuk, ez a módszer gyakran jobban kezelhető, mint a tiszta Bayes-tanulás.

  • A maximum-likelihood tanulás egyszerűen azt a hipotézist választja, amely maximálja az adatok likelihood értékét. Megfelel egy egyenletes prior mellett végrehajtott MAP-tanulásnak. Egyszerű esetekben, mint a lineáris regresszió és a teljesen megfigyelhető Bayes-hálók, a maximum-likelihood megoldás könnyen előállítható zárt alakban. A naiv Bayes- (naive Bayes) tanulás különösen hatékony technika, amely különböző bonyolultságú feladatokra is jól illeszthető.

  • Amikor a változók közt van néhány rejtett (nem megfigyelhető), akkor az EM algoritmussal lokális maximum-likelihood megoldásokat találhatunk. Az alkalmazások kiterjednek a kevert Gauss-jelek osztályozására, a Bayes-hálók tanulására és a rejtett Markov-modellek tanulására.

  • A modellválasztásra (model selection) ad példát a Bayes-hálók struktúrájának tanulása. Ez rendszerint egy, a struktúrák terében végzett diszkrét keresést foglal magában. Szükség van valamilyen módszerre a modell bonyolultsága és az illeszkedés mértéke közti kompromisszum létrehozásához.

  • A példányalapú modellek (instance-based model) a tanító példányok gyűjteményének eloszlását reprezentálják. Így a paraméterek száma a tanító halmaz méretével nő. A legközelebbi-szomszéd (nearest neighbor) módszerek a kérdéses mintapont közelében lévő példányokat nézik, míg a kernelmódszerek az összes példány távolsággal súlyozott kombinációját.

  • A neurális hálók (neural networks) nem mások, mint sok paraméterrel rendelkező, komplex nemlineáris függvények. Paramétereiket zajos adatok alapján tanulhatják meg. Több ezer alkalmazásban használták már őket.

  • A perceptron egy előrecsatolt neurális háló, amelynek nincs rejtett rétege, és csak lineárisan szeparálható (linearly separable) függvények reprezentálására alkalmas. Ha az adatok lineárisan szeparálhatók, akkor egy egyszerű súlyfrissítési szabály alkalmazásával az adatokra való pontos illeszkedést tudunk elérni.

  • A többrétegű előrecsatolt (multilayer feed-forward) neurális hálók – ha kellő számú neuronjuk van – tetszőleges függvények reprezentálására képesek. A hiba-visszaterjesztési (back-propagation) algoritmus a kimeneti hiba minimalizálása érdekében gradiensalapú csökkentést valósít meg a paramétertérben.

A statisztikai tanulás továbbra is igen aktív kutatási terület. Mind az elmélet, mind a gyakorlat hatalmas lépésekkel haladt, míg elértünk addig a pontig, hogy szinte bármely modell megtanulható, ha megvalósítható rá egzakt vagy közelítő következtetés.

20.8.1. Irodalmi és történeti megjegyzések

Az MI korai éveiben a statisztikai tanuláselmélet a kutatás aktívan művelt területe volt (Duda és Hart, 1973), de elkülönült az MI fősodrától, ahogy ez utóbbi egyre inkább a szimbolikus módszerekre koncentrált. Különböző formákban folytatódott – egyesek explicit módon valószínűségiek, mások nem – olyan területeken, mint az alakzatfelismerés (pattern recognition) (Devroye és társai, 1996) és az információkeresés (information retrieval) (Salton és McGill, 1983). Nem sokkal a Bayes-háló modellek bevezetése után, az 1980-as évek végén az érdeklődés ismét erősen ráirányult, nagyjából ugyanebben az időben jelent meg a neurális hálók statisztikai megközelítése. Az 1990-es évek végén a gépi tanulás, a statisztika és a neuronhálók területén is az érdeklődés középpontjába kerültek az adatok alapján nagy valószínűségi modelleket létrehozó módszerek.

A naiv Bayes-modell egyike a legrégebbi és legegyszerűbb Bayes-hálóknak, megjelenése egészen az 1950-es évekig követhető vissza. Eredetüket megemlítettük a 13. fejezet záró megjegyzéseiben. Részleges magyarázat található Domingos és Pazzani publikációjában (Domingos és Pazzani, 1997). A naiv Bayes-tanulás turbózott változata nyerte az első KDD Cup adatbányászati versenyt (Elkan, 1997). Heckerman kitűnő bevezetését adja a Bayes-háló tanulás általános problematikájának (Heckerman, 1998). Spiegelharter és társai a Bayes-hálók Bayesi paramétertanulását tárgyalták Dirichlet-priorok esetére (Spiegelharter és társai, 1993). A BUGS szoftvercsomag (Gilks és társai, 1994) számos gondolatot megtestesített ezek közül, nagyon hatékony eszközt biztosított az összetett valószínűségi modellek felállítására és tanulására. A Bayes-hálóstruktúra tanulásának első algoritmusai feltételes függetlenségi teszteket használtak (Pearl, 1988; Pearl és Verma, 1991). Spirtes és társai hasonló elvek alapján dolgozták ki átfogó megközelítésüket, valamint a Tetrad csomagot Bayes-hálóstruktúra tanulás céljaira (Spirtes és társai, 1993). Az azóta végrehajtott algoritmikus javítások a 2001-es KDD Cup adatbányászati versenyen egy Bayes-háló tanulási algoritmus (Cheng és társai, 2002) meggyőző győzelméhez vezettek. (Itt a speciális megoldandó feladat egy 139 351 tulajdonsággal leírt bioinformatikai probléma volt!) Cooper és Herskovits egy likelihood maximalizáláson alapuló struktúratanulási megközelítést fejlesztett ki (Cooper és Herskovits, 1992), ezt Heckerman és társai fejlesztették tovább (Heckerman és társai, 1994). Friedman és Goldszmidt mutatták ki a lokális feltételes eloszlások reprezentációjának a megtanult struktúrára gyakorolt hatását (Friedman és Goldszmidt, 1996).

A rejtett változókkal és a hiányzó adatokkal való valószínűségi modell tanulás általános problematikáját az EM algoritmussal kísérelték meg kezelni (Dempster és társai, 1977). Ezt számos meglévő módszerből absztrahálták, amelyek közt található a rejtett Markov-modell (HMM) tanulásra szolgáló Baum–Welch-algoritmus is (Baum és Petrie, 1966). (Maga Dempster az EM algoritmust inkább sémának tekinti, nem algoritmusnak, mivel jó adag elméleti matematikai munkára lehet szükség mielőtt egy új eloszláscsaládra alkalmazható lenne.) Manapság az EM egyike a tudományos kutatásban legelterjedtebben használt algoritmusoknak, McLachlan és Krishnan egy teljes könyvet szenteltek neki és tulajdonságainak (McLachlan és Krishnan, 1997). A kevert modellek – beleértve a kevert Gauss-modellek – tanulásának speciális problémáit Titterington és társai tárgyalták (Titterington és társai, 1985). Az AUTOCLASS volt az első sikeres rendszer az MI-n belül, amely az EM-et alkalmazta kevert modellezésre (Cheeseman és társai, 1988; Cheeseman és Stutz, 1996). Az AUTOCLASS-t egy sor valós tudományos osztályozási feladatra alkalmazták; ezek közül kettő: spektrális tulajdonságok alapján új csillagtípusok felfedezése (Goebel és társai, 1989); új fehérje- és intronosztályok felfedezése DNS/fehérjeszekvencia adatbázisokban (Hunter és States, 1992).

A rejtett változókkal rendelkező Bayes-hálók tanulására kifejlesztett EM algoritmus Lauritzen munkája (Lauritzen, 1995). Mind a Bayes-hálók, mind a dinamikus Bayes-hálók esetén a gradiensalapú eljárások is hatékonynak bizonyultak (Russell és társai, 1995; Binder és társai, 1997a). A strukturális EM algoritmus kifejlesztése Friedman nevéhez fűződik (Friedman, 1998). A Bayes-hálók struktúrájának megtanulhatósága szoros kapcsolatban van a kauzális kapcsolatok adatokból történő visszanyerésének kérdésével. Azaz lehetséges-e Bayes-hálókat úgy megtanulni, hogy az előállított hálóstruktúra valós kauzális hatásokat jelezzen? A statisztikusok hosszú évek óta elkerülték ezt a kérdést, azt hitték, hogy a megfigyelt adatok (ellentétben a kísérletek során előálltakkal) csak korrelációs információt hordoznak. Végül is bármely két változóra, amelyek egymással kapcsolatban állónak tűnnek, lehet, hogy valójában inkább egy harmadik – mindkettőre kauzális hatást gyakorló – ismeretlen változó hatása alatt állnak, nem pedig egymásra gyakorolnak közvetlen hatást. Ennek ellenkezőjére Pearl adott meggyőző érveket (Pearl, 2000). Megmutatta, hogy valójában számos eset van, amikor a kauzalitás kideríthető, és kauzális háló (causal network) formalizmus alakítható ki az oksági kapcsolatok, a beavatkozás hatásának, valamint a szokásos feltételes valószínűségek beépítésére.

A legközelebbi-szomszéd modellek legalább Fix és Hodges (Fix és Hodges, 1951) munkájáig nyúlnak vissza, és azóta a statisztika és alakfelismerés standard eszközei. Az MI-n belül Stanfill és Waltz népszerűsítették ezeket a modelleket (Stanfill és Waltz, 1986), ők a távolságmetrika adatokhoz történő adaptálási módszereivel foglalkoztak. Hastie és Tibshirani kifejlesztettek egy módszert, amellyel a tér egyes pontjaihoz kötötték az ezen pont körüli adateloszlástól függő metrikát (Hastie és Tibshirani, 1996). A legközelebbi-szomszédok hatékony indexelési sémával történő megtalálásával az algoritmusokat kutató közösség foglalkozott (pl. Indyk, 2000). A kernelsűrűség-becslést, amelyet Parzen ablak (Parzen window) sűrűségbecslésnek is neveznek, kezdetben Rosenblatt és Parzen tanulmányozta (Rosenblatt, 1956; Parzen, 1962). Azóta óriási az irodalma a különböző becslők tulajdonságai vizsgálatának. Devroye alapos bevezetést nyújt ehhez a témához (Devroye, 1987).

A neurális hálók irodalma túl nagy ahhoz (napjainkig kb. 100 000 publikáció), hogy részletesen bemutathassuk. A korai fejleményekről Cowan és Sharp készített összefoglalót (Cowan és Sharp, 1988b; 1988a), McCulloch és Pitts munkásságával kezdve az áttekintést (McCulloch és Pitts, 1943). Norbert Wiener – a kibernetika és a szabályozáselmélet egyik úttörője (Wiener, 1948) – együtt dolgozott McCullochkal és Pitts-szel, és nagy hatást gyakorolt egy sor fiatal kutatóra, például Marvin Minskyre, aki valószínűleg elsőként fejlesztett ki működő neurálisháló-hardvert 1951-ben (Minsky és Papert, 1988, pp. ix–x.) Ezalatt Nagy-Britanniában W. Ross Ashby (szintén a kibernetika egyik úttörője; Ashby, 1940), Alan Turing, Grey Walter és mások megalakították a Ráció Klubot (Ratio Club) azok számára, akik „rájöttek Wiener gondolataira, még mielőtt Wiener könyve megjelent”. Ashby Az agy felépítése (Design for a Brain, 1948, 1952) című könyvében vetette fel, hogy stabil adaptív viselkedést létrehozó alkalmas visszacsatoló hurkokkal rendelkező homeostatikus[210] (homeostatic) eszközök segítségével intelligenciát lehetne létrehozni. Turing egy kutatási jelentést írt Intelligens Gépek (Intelligent Machinery) címen (Turing, 1948), amely a következő mondattal kezdődik: „Javaslom megvizsgálni azt a kérdést, hogy vajon lehetséges-e az, hogy a gépek intelligens viselkedést mutassanak”, majd leírja a rekurrens neurális hálózatokat, amelyeket „B típusú nem szervezett gépek” néven vezet be, és megadja tanításuknak egy lehetséges megközelítését. Sajnos ezt a jelentést 1969-ig nem is publikálták, és napjainkig lényegében figyelmen kívül hagyták.

Frank Rosenblatt (Rosenblatt, 1957) nevéhez fűződik a modern „perceptron” felfedezése, és ő bizonyította be a perceptronkonvergencia tételt (Rosenblatt, 1960), bár ezt már a neurális hálók területén kívül eső, tisztán matematikai munkák is előrevetítették (Agmon, 1954; Motzkin és Schoenberg, 1954). Volt némi, a többrétegű hálózatokra irányuló korai kutatás is, amelynek eredményei például a Gamba-perceptronok (Gamba és társai, 1961) és a madaline-ok (Widrow, 1962). A Learning Machines (Nilsson, 1965) c. könyv áttekintést ad a korai kutatás legnagyobb részéről. A korai perceptronkutatások halálát siettette – a szerzők későbbi állítása szerint csak magyarázta – a Perceptrons c. könyv (Minsky és Papert, 1969), amelyben a terület matematikai precizitásának hiányát panaszolták fel. A könyv rámutatott, hogy egyrétegű perceptronokkal csak lineárisan szeparálható helyzetek reprezentálhatók, és felhívta a figyelmet a többrétegű hálók hatékony tanuló algoritmusainak hiányára.

A San Diegóban, 1979-ben tartott konferencia publikációira alapozott kiadvány (Hinton és Anderson, 1981) tekinthető a konnekcionizmus újjáéledése jelének. Nagy figyelmet keltett a kétrészes „PDP” (Párhuzamos elosztott feldolgozás – Parallel Distributed Processing) antológia (Rumelhart és társai, 1986a), illetve a Nature-ben megjelent rövid cikk (Rumelhart és társai, 1986b). A neurális hálókkal foglalkozó cikkek száma az 1980–1984 közötti publikációk számáról 200-szorosára nőtt 1990–1994-re. A mágneses spin üvegek fizikai elméletének felhasználásával elvégzett neurális háló analízis (Amit és társai, 1985) nem csupán szorosabb kapcsolatot hozott a statisztikus mechanika és neurális hálók elmélete közt, hanem tekintélyt is adott a területnek. A hiba-visszaterjesztés (back-propagation) technikáját viszonylag hamar kitalálták (Bryson és Ho, 1969), de több alkalommal újra felfedezték (Werbos, 1974; Parker, 1985).

Az 1990-es években megjelent szupport vektor gépeknek (Cortes és Vapnik, 1995) napjainkban gyorsan növekvő az irodalmuk, amely olyan tankönyveket is magában foglal, mint Cristianini és Shawe-Taylor könyve (Cristianini és Shawe-Taylor, 2000). Nagyon népszerűnek és bizonyos feladatokra nagyon hatékonynak bizonyultak, ilyenek például a szövegkategorizálás (Joachims, 2001), a bioinformatikai kutatás (Brown és társai, 2000), a természetes nyelvű szöveg feldolgozása, mint a kézzel írt számjegyek DeCoste és Schölkopf által megvalósított felismerése (DeCoste és Schölkopf, 2002). A szavazó perceptron szintén egy olyan technika, amely a kerneltrükköt alkalmazza az exponenciális tulajdonságtér implicit reprezentációjára (Collins és Duffy, 2002).

Számos forrás adható meg a neurális hálók valószínűségi interpretációjára, például (Baum és Wilczek, 1988), valamint (Bridle, 1990). A szigmoid függvény szerepét Jordan tárgyalja (Jordan, 1995). MacKay javasolta a neurális hálók Bayes-i paraméterbecslését (MacKay, 1992), amelyet Neal fejlesztett tovább (Neal, 1996). A neurális hálók függvényreprezentációs képességeit Cybenko vizsgálta (Cybenko, 1988; 1989), aki megmutatta, hogy két rejtett réteg elegendő tetszőleges függvény reprezentációjához, tetszőleges folytonos függvény reprezentációjához pedig elég egy réteg. A haszontalan összeköttetések eltávolítását célzó „optimális agykárosodás” módszer LeCun és társai eredménye (LeCun és társai, 1989), míg Sietsma és Dow mutatták meg, hogyan kell a felesleges neuronokat eltávolítani (Sietsma és Dow, 1988). A nagyobb struktúrák növesztéssel való előállítására szolgáló csempézési algoritmus Mézard és Nadal munkája (Mézard és Nadal, 1989). A kézzel írt számjegyek felismerésével foglalkozó algoritmusokról LeCun és társai írtak áttekintő publikációt (LeCun és társai, 1995). Azóta jobb hibaarányt értek el Belongie és társai (2002) az alakillesztési eljárás (Belongie és társai, 2002), valamint DeCoste és Schölkopf a virtuális szupport gép alkalmazásával (DeCoste és Schölkopf, 2002).

A számítógépes tanulás elmélete területén tevékenykedő kutatók foglalkoztak a neurális háló tanulás komplexitásával. Az első számítási eredményeket Judd kapta (Judd, 1990), aki megmutatta, hogy egy példahalmazzal konzisztens súlyhalmaz megtalálásának általános problémája – még nagyon erősen korlátozó feltételek esetén is – NP-teljes. A mintakomplexitásra vonatkozó eredmények közül néhány Baum és Haussler munkájához fűződik, akik megmutatták, hogy W súly esetén a hatékony tanításhoz szükséges mintaszám W log W arányában nő (Baum és Haussler, 1989).[211] Azóta Anthony és Bartlett egy sokkal fejlettebb elméletet fejlesztettek ki (Anthony és Bartlett, 1999), amely magában foglalja azt a fontos eredményt, hogy a háló reprezentációs képessége a súlyok nagyságrendjétől és számától egyaránt függ.

Az általunk nem tárgyalt legnépszerűbb neurális háló a radiális bázisfüggvény (RBF) (radial basis function) háló. A radiális bázisfüggvény kernelek súlyozott kombinációját (természetesen rendszerint Gauss-kernelekét) alkalmazza függvényapproximációra. Az RBF-hálókat két fázisban taníthatjuk: először egy nem ellenőrzött osztályozással tanítjuk a Gauss-függvények paramétereit (az átlagokat és varianciákat), mint a 20.3. alfejezetben láttuk. A második fázisban a Gauss-függvények relatív súlyát határozzuk meg. Ez egy lineáris egyenletrendszer megoldása, amiről tudjuk, hogy közvetlenül hogyan oldható meg. Így az RBF-tanítás mindkét fázisának vonzó tulajdonságai vannak: az első fázis nem ellenőrzött, tehát nincs szükségünk hozzá címkézett mintákra, a második ugyan felügyelt, de hatékonyan elvégezhető. A részleteket lásd Bishop publikációjában (Bishop, 1995).

A rekurrens hálókat (recurrent network), amelyekben a neuronok hurkokba vannak kapcsolva, említettük ugyan a fejezetben, de nem részleteztük. A legjobban megértett rekurrens háló osztályt valószínűleg a Hopfield-hálók (Hopfield networks) (Hopfield, 1982) alkotják. A Hopfield-háló kétirányú kapcsolatokat használ szimmetrikus súlyokkal (azaz Wi,j = Wj,i), minden neuron bemeneti és egyben kimeneti egység is, a g aktivációs függvény az előjelfüggvény, az aktivációs szint pedig csak a ±1 lehet. A Hopfield-háló asszociatív memóriaként működik: miután egy mintahalmazon tanítottuk, egy új bemeneti stimulus hatására egy olyan aktivációs mintára áll be, amely a tanító példák közül a leginkább emlékeztet az új bemenetre. Ha például a tanító halmaz egy halom fénykép, az új bemenet pedig az egyik fénykép egy kis darabja, akkor aktivációs szintjeivel a háló vissza fogja állítani az adott darabból a fényképet. Figyeljük meg, hogy a fényképek nincsenek elkülönülten tárolva a hálóban: mindegyik súly az összes fénykép egy részleges kódja. Érdekes elméleti eredmény, hogy az N neuronból álló Hopfield-háló legfeljebb 0,138N tanító mintát képes megbízhatóan tárolni.

A Boltzmann-gépek is szimmetrikus súlyokat használnak, de tartalmaznak rejtett egységeket is (Hinton és Sejnowski, 1983; 1986). Ráadásul aktivációs függvényük sztochasztikus: a kimenet 1 értékének valószínűsége a teljes súlyozott bemenetnek valamilyen függvénye. A Boltzmann-gépek ennek megfelelően a szimulált lehűtés keresési eljárásra (lásd 4. fejezet) emlékeztető állapotátmenetek során jutnak el a tanító halmazt a legjobban közelítő konfigurációhoz. Kimutatható, hogy a Boltzmann-gépek nagyon közeli rokonságban vannak bizonyos speciális Bayes-hálókkal, amelyeket sztochasztikus szimulációs algoritmussal értékelünk ki. (Lásd 14.5. alfejezet.)

A kernelgépek alapötletének első alkalmazása Aizerman és társai munkájához fűződik (Aizerman és társai, 1964, de a szupport vektor gépek felé mutató, teljes elméleti kidolgozás Vlagyimir Vapniknak és kollégáinak köszönhető (Boser és társai, 1992; Vapnik, 1998). A precíz elméleti tárgyalás megtalálható Cristianini és Shawe-Taylor, illetve Schölkopf és Smola könyvében (Cristianini és Shawe-Taylor, 2000; Schölkopf és Smola, 2002), valamint egy barátságosabb kifejtés található Cristianini és Schölkopf AI Magazine-ban megjelent cikkében.

Ennek a fejezetnek az anyaga a statisztika, alakfelismerés és neurális hálók kutatásában elért eredményeket integrálja, tehát a történetet sokszor, sokféle módon elmondták már. A Bayes-statisztikáról jó publikációkat találunk, ilyenek például a (DeGroot, 1970), a (Berger, 1985), továbbá a (Gelman és társai, 1995). A statisztikus tanulás elméletének kiváló tárgyalása található a (Hastie és társai, 2001) munkában. Az alakosztályozás témakörében Duda és Hart könyve számít klasszikusnak (Duda és Hart, 1973), melynek nemrég új kiadása is megjelent (Duda és társai, 2001). A neurális hálókról a (Bishop, 1995) és a (Ripley, 1996) a legfontosabb könyvek. A számítógépes neurális tudományt a (Dayan és Abbott, 2001) könyv tárgyalja. A neurális hálók és hozzájuk kapcsolódó témák legfontosabb konferenciái az évente megrendezett NIPS- (Neural Information Processing Conference) konferenciák, melyek kiadványait az Advances in Neural Information Processing Systems sorozatban jelentetik meg. A Bayes-hálók tanulásáról szóló írások az Uncertainty in AI és a Machine Learning konferenciákon jelennek meg, továbbá számos statisztikával foglalkozó konferencián. A neurális hálókkal foglalkozó újságok között érdemes megemlíteni a Neural Computationt, a Neural Networksöt és az IEEE Transaction on Neural Networksöt.

20.8.2. Feladatok

20.1.

A 20.1. ábrán használt adatokat úgy tekinthetjük, mintha h5 generálta volna őket. A másik négy hipotézis mindegyikére generáljon egy-egy 100 hosszúságú adathalmazt, rajzolja fel a megfelelő P(hi|d1,…, dm) és P(Dm+1 = citrom|d1,…, dm) görbéket! Értékelje az eredményeket.

20.2.

Ismételje meg a 20.1. feladatot úgy, hogy a P(Dm+1 = citrom|hmap,…, dm), illetve P(Dm+1 = citrom|hml) görbéket rajzolja fel.

20.3.

Tegyük fel, hogy Anna számára a meggycukorkák hasznossága cA, a citromcukorkáké A, míg Béla számára a hasznosságok rendre cB és B. (De ha Anna kibontott egy cukorkát, akkor azt Béla már nem fogja megvásárolni tőle.) Ha Béla sokkal jobban szereti a citromízű cukorkát, mint Anna, akkor Anna feltehetőleg bölcsen teszi, ha eladja a cukros zacskóját, amikor már kellően biztos a citromízűek arányában. Másrészről viszont, ha Anna túl sok cukrot kibontott már az arány eldöntése során, akkor a zacskó értéktelenné válik. Vizsgálja meg a cukroszacskó-eladás optimális pillanatának meghatározását. Határozza meg az optimális eljárás várható hasznosságát, a 20.1. alfejezet a priori eloszlásainak feltételezésével.

20.4.

Két statisztikus elmegy az orvoshoz, és mindkettőről ugyanazt a diagnózist állítja fel az orvos: 40% eséllyel a halálos A betegségben, 60% eséllyel a szintén végzetes B betegségben szenvednek. Szerencsére van az A és B betegségnek is olcsó, 100%-ban hatásos, mellékhatás nélküli gyógyszere. A statisztikusoknak lehetőségük van az A elleni, a B elleni vagy mindkét gyógyszert szedni, de dönthetnek úgy is, hogy egyiket sem szedik. Mit fog az első statisztikus – aki elszánt Bayes-hívő – választani? Mit tesz a második, aki mindig a maximum-likelihood hipotézist választja?

Az orvos némi kutatás után felfedezi, hogy a B betegségnek két változata van, a dextro-B és a levo-B, amelyek egyforma valószínűséggel lépnek fel, és egyformán jól kezelhetők az anti-B gyógyszerrel. Mit fog csinálni a két statisztikus most, hogy három hipotézis van?

20.5.

Magyarázza meg, hogyan alkalmazható a 18. fejezetben tárgyalt turbózás módszere a naiv Bayes-tanulásra. Tesztelje a kapott algoritmust az étterem tanulási problémán.

20.6.

Vegyen m darab (xj, yj) adatpontot, az xj-ből a (20.5) egyenlet alapján generálja yj-t. Keresse meg azokat a θ1, θ2 és σ értékeket, amelyek maximálják az adatok feltételes log likelihood értékét.

20.7.

Vizsgálja a láz 14.3. alfejezetben bemutatott zajos-VAGY modelljét. Magyarázza meg, hogyan alkalmazható a maximum-likelihood tanulás arra, hogy egy teljes adathalmazra illesszük egy ilyen modell paramétereit. (Segítség: a parciális deriváltakra használja a láncszabályt.)

20.8.

Ebben a feladatban a (20.6) egyenlettel definiált béta-eloszlások tulajdonságait vizsgáljuk.

  1. A [0, 1] tartomány feletti integrálás alapján mutassa meg, hogy a béta[a,b] eloszlás normalizáló faktorát α = Γ(a + b)/ Γ(a) Γ(b) adja, ahol Γ(x) az úgynevezett gamma-függvény, amelynek definíciója: Γ(x + 1) = x × Γ(x) és Γ(1) = 1. (Egész x-ekre Γ(x + 1) = x!)

  2. Mutassa meg, hogy az átlagérték a/(a + b).

  3. Állítsa elő a modus(oka)t (a legvalószínűbb θ értéke(ke)t).

  4. Jellemezze a béta[ε, ε] eloszlást nagyon kis ε esetén. Mi történik, ha egy ilyen eloszlást frissítünk?

20.9.

Vegyen egy tetszőleges Bayes-hálót, egy ehhez a hálóhoz tartozó teljes adathalmazt és az adathalmaznak a háló által megadott likelihood-értékét. Adjon egyszerű bizonyítást arra, hogy az adathalmaz likelihood-értéke nem csökkenhet, ha a hálóhoz hozzáadunk egy új kapcsolatot, majd újraszámoljuk a maximum-likelihood paramétereket.

20.10.

Vizsgálja meg az EM alkalmazását arra a problémára, amikor a 20.10. (a) ábrán látható háló paramétereit akarjuk tanulni, miközben az igazi paraméterértékeketa (20.7) egyenlet adja.

  1. Magyarázza meg, hogy miért nem működne az EM algoritmus, ha csak két attribútum volna, és nem három.

  2. Végezze el az első iterációra vonatkozó számítást a (20.8) egyenletből kiindulva.

  3. Mi történik, ha induláskor az összes paramétert ugyanarra a p értékre állítjuk? (Segítség: hasznos lehet, ha empirikusan megvizsgálja, mielőtt az általános eredményt megpróbálná levezetni.)

  4. Írja fel a 20.3.2. szakasz - Rejtett változókkal felépített Bayes-hálók tanulása részben található adattáblázatra a log likelihoodnak a paraméterekkel kifejezett összefüggését. Számítsa ki minden egyes paraméterre a parciális derivált értékét! Vizsgálja meg a (c) részben rögzített pont jellegét.

20.11.

Hozzon létre manuálisan egy olyan neurális hálót, amely két bemenetének az xor függvényét számítja ki. Bizonyosodjon meg arról, helyesen specifikálta-e azt, hogy milyen egységeket kell használni.

20.12.

Hozzon létre egy olyan szupport vektor gépet, amely az xor függvényt számítja ki. Kényelmesebb lesz, ha mind a bemeneteknél, mind a kimenetnél –1-et és +1-et használ 0 és +1 helyett. Ennek megfelelően egy minta például ([–1, 1], 1) vagy ([–1, –1], –1) lesz. Tipikus, hogy az x bemenetet egy ötdimenziós térre képezzük le, ahol kettő az eredeti x1 és x2 dimenzió, a másik három pedig x12, x22, illetve x1 x2 kombinációi. Ebben a feladatban viszont csak két dimenziót használunk: x1-et és x1 x2-t. Rajzolja fel ebben a térben a négy bemeneti pontot és a maximális tartalékkal rendelkező osztályozót. Mekkora a tartalék? Rajzolja meg a határoló vonalat az eredeti, euklideszi térben.

20.13.

Egy egyszerű perceptron nem képes az xor függvény (vagy általánosabban a paritásfüggvény) ábrázolására. Mutassa be, hogy hogyan alakulnak egy négybemenetű, ugrásfüggvényt használó perceptron súlyai, amikor sorban a paritásfüggvényből származó minták érkeznek (kezdetben minden súly 0,1 értékű volt).

20.14.

Idézzük fel a 18. fejezetből, hogy n bemenet esetén 22 különböző logikai függvény létezik. Hányat tud reprezentálni ezek közül az ugrásfüggvényt használó perceptron?

20.15.

Vegyük a következő – hat bemeneti értéket (I1I6) és egy, ezekhez tartozó kívánt kimeneti értéket (T) megadó – mintahalmazt.

  1. Futassa a perceptron tanulási szabályt erre az adathalmazra, és adja meg a végső súlyokat.

  2. Futassa a döntési fa tanulási algoritmust, és adja meg az eredményül kapott döntési fát.

  3. Értékelje az eredményeket.

20.16.

A (20.13) egyenletből kiindulva mutassa meg, hogy ∂L/Wj = Err · xj.

20.17.

Tegyük fel, hogy egy lineáris aktivációs függvényeket használó neurális hálónk van. Azaz minden neuron kimenete a bemenetek súlyozott összegének c-szerese, ahol c egy konstans.

  1. Tegyük fel, hogy a hálónak egy rejtett rétege van. Írja fel a súlyok egy adott W értékkészletére azokat az egyenleteket, amelyek megadják a kimeneti réteg neuronjainak kimeneti értékeit W és a bemeneti réteg I értékeinek függvényében – anélkül hogy explicit módon megjelennének az egyenletekben a rejtett neuronok kimeneti értékei. Mutassa meg, hogy létezik olyan háló, amelynek nincs rejtett rétege, de ugyanezt a függvényt valósítja meg.

  2. Ismételje meg az (a) rész alatti feladatot, de tetszőleges számú rejtett réteg esetére. Milyen következtetést vonhat le a lineáris aktivációs függvényekre?

20.18.

Hozzon létre egy adatstruktúrát rétegekbe szervezett, előrecsatolt neurális hálók leírására, amely tartalmazza az előreterjesztéshez és a hiba-visszaterjesztéshez szükséges információt is. Ezt használva írjon egy NEURÁLIS-HÁLÓ-KIMENET nevű programot, amely egy mintát és egy neurális hálót kap bemenetként, és kiszámítja a neurális hálónak a mintára adott kimeneti válaszát.

20.19.

Tegyük fel, hogy egy tanító halmaz csupán egyetlen példát tartalmaz, de azt 100-szor. A 100 esetből 80-ban az egyetlen kimeneti érték 1; a másik 20-ban 0. Mit ad erre a példára egy hiba-visszaterjesztéssel tanított háló, ha tanítottuk, és elérte a globális optimumot? (Segítség: a globális optimum megtalálásához differenciálja a hibafüggvényt, és keresse a nullahelyét.)

20.20.

A 20.24. ábrán látható hálónak négy rejtett neuronja van. Ezt a neuronszámot némiképpen ötletszerűen választottuk. Végezzen szisztematikus kísérleteket, hogy különböző számú rejtett neuronnal rendelkező hálókra lemérje a tanulási görbét. Mi az optimális neuronszám? Lehetséges lenne keresztvalidációs módszerrel megtalálni a legjobb hálót még a kísérletek előtt?

20.21.

Vegyük azt a problémát, amikor N adatpontot akarunk lineáris osztályozóval szétválasztani pozitív és negatív példákra. Nyilvánvaló, hogy N = 2 pont esetén ez egy d = 1 dimenziós egyenesen mindig megtehető, függetlenül attól, hogy a pontok hol helyezkednek el, és hogy vannak címkézve (kivéve, ha ugyanazon a helyen vannak).

  1. Mutassa meg, hogy a szeparálás mindig elvégezhető N = 3 pontra egy d = 2 dimenziós síkon, ha a pontok nem egy egyenesre esnek.

  2. Mutassa meg, hogy nem lehet mindig elvégezni a szeparálást N = 4 pontra egy d = 2 dimenziós síkon.

  3. Mutassa meg, hogy a szeparálás mindig elvégezhető N = 4 pontra egy d = 3 dimenziós térben, ha a pontok nem esnek egy síkra.

  4. Mutassa meg, hogy nem lehet mindig elvégezni a szeparálást N = 5 pontra egy d = 3 dimenziós térben.

  5. Egy törekvő diák kitűzheti maga elé, hogy bebizonyítja: N – 1 dimenziós térben általános helyzetben található N pont lineárisan szeparálható (de N + 1 nem). Ebből következik, hogy az N – 1 dimenziós lineáris félterek VC-dimenziója (lásd 18. fejezet) N.



[210] Homeosztázis: egy szervezet különböző, de egymással kölcsönhatásban álló elemei vagy elemek csoportjai között fennálló stabil egyensúly vagy egyensúly felé való törekvés. Gyakran biológiai összefüggésben használt kifejezés. (A ford.)

[211] Ez nagyjából igazolta „Bernie bácsi” törvényét: a szabályt Bernie Widrowról nevezték el, aki azt javasolta, hogy nagyjából tízszer annyi mintát használjanak, mint a súlyok száma.