14.6. Elsőrendű reprezentációk valószínűségi kiterjesztése

Fontos

A 8. fejezetben kifejtettük az elsőrendű logika reprezentációs előnyeit az ítéletlogikához képest. Az elsőrendű logika objektumok és közöttük lévő relációk létezését veszi alapul, és képes tényeket kifejezni a tárgyterület néhány vagy összes objektumáról. Ez gyakran vezet olyan reprezentációkra, amelyek összehasonlítathatlanul tömörebbek, mint az ekvivalens ítéletlogikai leírások. Márpedig a Bayes-hálók alapvetően az ítéletlogikához kapcsolódnak: a változók halmaza rögzített és véges, és minden változónak rögzített értékkészlete van. Ez a tény korlátozza a Bayes-hálók felhasználhatóságát. Ha sikerül találnunk egy módszert arra, hogy az elsőrendű reprezentációk kifejezőerejét a valószínűség-számítással kombináljuk, várható, hogy ugrásszerűen megnöveljük a kezelhető problémák körét.

Fontos

Ennek a célnak az eléréséhez a következő alapvető felismerés szükséges: az ítéletlogika szemszögéből nézve a Bayes-háló elemi események feletti valószínűségeket határoz meg, amelyek mindegyike a hálózat minden változójára meghatároz egy értéket. Azaz, az ítéletlogika terminológiája szerint egy elemi esemény egy modell vagy egy lehetséges világ. Az elsőrendű felfogás szerint egy modell (az értelmezésével együtt) meghatározza az objektumok egy tárgykörét, a közöttük fennálló kapcsolatokat, és a tudásbázisbeli konstansok és predikátumok egy megfeleltetését a modellbeli objektumokra és kapcsolatokra. Ezért egy elsőrendű valószínűségi tudásbázisnak az összes lehetséges elsőrendű modell valószínűségét definiálnia kell. Legyen μ (M) a tudásbázis által az M modellhez rendelt valószínűség. Ekkor bármely elsőrendű állításnak a P() valószínűségét a szokásos módon kapjuk, összegezve azon lehetséges világok felett, ahol igaz:

Eddig rendben is volna. Azonban van egy probléma: az elsőrendű modellek halmaza végtelen. Ez azt jelenti, hogy (1) az összegzés kivitelezhetetlen, és (2) egy teljes, konzisztens eloszlás meghatározása a világok egy végtelen halmazán igen bonyolult lehet.

Fogadjunk el ezért bizonyos korlátozásokat, legalábbis időlegesen. Nevezetesen, hogy tervezzünk egy olyan korlátozott nyelvet, amelyhez csak véges modell tartozik. Ez számos módon megtehető. Itt a relációs valószínűségi modelleket (relational probability models, RPM) vagy RVM-eket ismertetjük, amelyek a szemantikus hálók (lásd 10. fejezet) és objektumrelációs adatbázisok elméletéből is vettek át elemeket. Egyéb megközelítések az irodalmi és történeti megjegyzésekben szerepelnek.

Az RVM-ek megengednek konstans szimbólumokat, amelyek objektumokat neveznek meg. Például legyen KovácsProf egy professzor neve, János pedig egy diák neve. Minden objektum az osztály egy példánya: például KovácsProf egy Professzor és János egy Diák. Feltesszük, hogy minden konstans szimbólum osztálya ismert.

Függvényszimbólumaink kétfelé lesznek osztva. Az első fajtába tartozók, az egyszerű függvények (simple functions), egy objektumot nem egy másik strukturált objektumra képeznek le, hanem egy értékre egy rögzített értéktartományból, pontosan úgy, ahogy egy valószínűségi változónál. Például az Intelligencia(János) és a Finanszírozás(KovácsProf) lehet magas vagy alacsony; a Siker(János) és a Hírnév(KovácsProf) lehet igaz vagy hamis. Függvényszimbólumok nem alkalmazhatók olyan értékekre, mint az igaz vagy a hamis, így nem lehetséges egyszerű függvények egymásba ágyazása. Ezzel elkerüljük a végtelenség egyik forrását. Egy adott objektumon alkalmazott egyszerű függvény értéke lehet megfigyelt vagy ismeretlen; reprezentációnkban ezek lesznek az elemi valószínűségi változók.[152]

Megengedünk emellett komplex függvényeket (complex functions) is, amelyek objektumokat képeznek le más objektumokra. Például a Konzulens(János) lehet KovácsProf. Minden komplex függvénynek van egy megadott értéktartománya és értékkészlete, amik osztályok. Például a Konzulens értéktartománya a Diák és értékkészlete a Professzor. A függvények csak helyes osztályokra alkalmazhatók; például a KovácsProf Konzulens-e nem definiált. Komplex függvények egymásba ágyazhatók: a TanszékVezető(Konzulens(János)) lehet MórProf. Egyelőre feltesszük, hogy minden komplex függvény értéke ismert az összes konstans szimbólumra. Mivel a TB véges, ez maga után vonja, hogy komplex függvények alkalmazásának minden láncolata elvezet a véges számú objektum egyikéhez.[153]

Az utolsó elem, amire szükségünk van, az a valószínűségi információ. Minden egyszerű függvényhez specifikáljuk a szülők egy halmazát, csakúgy, mint a Bayes-hálóknál. A szülők lehetnek ugyanannak az objektumnak más egyszerű függvényei; például egy Professzor-nak a Finanszírozás-a függhet a Hírnév-től. A szülők lehetnek még kapcsolódó objektumok egyszerű függvényei – például egy diák Sikere függhet a diák Intelligenciá-jától és a diák konzulensének Hírnév-től. Ezek valóban univerzálisan kvantifikált állítások egy osztály minden objektumának szüleiről. Így írhatjuk azt, hogy

x x DiákSzülők(Siker(x)) = {Intelligencia(x), Hírnév(Konzulens(x))}

(Kevésbé formálisan a 14.16. (a) ábrához hasonló diagrammokat rajzolhatunk.) Most megadjuk a gyermek feltételes valószínűség eloszlását, ahol a feltételt a szülei jelentik. Például mondhatjuk, hogy:

x x Diák P(Siker(x) = igaz | {Intelligencia(x) = magas, Hírnév(Konzulens(x)) = igaz) = 0,95

Csakúgy, mint a szemantikus hálókban, csatolhatunk feltételes eloszlásokat magához az osztályhoz is, így a példányok öröklik (inherit) a függéseket és a feltételes valószínűségeket az osztálytól.

14.16. ábra - (a) Egy két osztályt (Professzor és Diák) leíró RVM. Két professzor és két diák van, mindkét diák konzulense KovácsProf. (b) Az (a)-beli RVM Bayes-háló ekvivalense.
(a) Egy két osztályt (Professzor és Diák) leíró RVM. Két professzor és két diák van, mindkét diák konzulense KovácsProf. (b) Az (a)-beli RVM Bayes-háló ekvivalense.

Az RVM nyelv szemantikája felteszi, hogy minden konstans szimbólum egy különálló objektumra hivatkozik – az egyedi név feltételezést (unique names assumption) a 10. fejezetben írtuk le. Ezen feltevés mellett és a korábban felsorolt megkötésekkel, meg lehet mutatni, hogy minden RVM valószínűségi változók egy rögzített, véges halmazát generálja, amelyek mindegyike egy egyszerű függvény egy konstans szimbólumra alkalmazva. Ekkor – feltéve, hogy a szülő-gyermek függések körmentesek – megkonstruálhatunk egy ekvivalens Bayes-hálót. Azaz az RVM és a Bayes-háló azonos valószínűségeket határoz meg minden lehetséges világra. A 14.6. (b) ábra mutatja azt a Bayes-hálót, ami a 14.16. (a) ábra RVM-jéhez tartozik. Vegyük észre, hogy az RVM-ben szereplő Konzulens kapcsolatok nincsenek jelen a Bayes-hálóban. Ennek oka, hogy rögzítettek és ismertek. Azonban közvetetten feltűnnek a háló topológiájában; például a Siker(János) szülője a Hírnév(KovácsProf), mivel a Konzulens(János) értéke a KovácsProf. Általában, az objektumok között fennálló relációk meghatározzák az ezen objektumok tulajdonságai között fennálló függőségeket.

Az RVM-ek kifejezési erejének megnövelésére számos módszer kínálkozik. Megengedhetünk rekurzív függéseket (recursive dependencies) a változók között, hogy bizonyosfajta visszatérő kapcsolatokat kezelni tudjunk. Például tegyük fel, hogy a gyorséttermi ételektől való függőséget egy McGén okozza. Ekkor minden x-re McGén(x) függ a McGén(Apa(x)) és McGén(Anya(x))-től, amelyek viszont függnek a McGén(Apa(Apa(x))) és a McGén(Anya(Apa(x)))-től és így tovább. Bár az ilyen tudásbázisok végtelen változót tartalmazó Bayes-hálókhoz tartoznak, fixpont-egyenletekből olykor megoldásokhoz juthatunk. Például a kiszámítható a McGén egyensúlyi eloszlása, az öröklődés adott feltételes valószínűsége mellett. A rekurzív tudásbázisok egy másik igen fontos családja a 15. fejezetben leírt időbeli valószínűségi modelleket (temporal probability models) tartalmazza. Ezekben a modellekben a t időpillanatbeli állapot tulajdonságai a t – 1 időpillanatbeli állapot tulajdonságaitól függnek és így tovább.

Az RVM-ek szintén kiterjeszthetők, hogy megengedjenek kapcsolati bizonytalanságot (relational uncertainty) is – azaz bizonytalanságot a komplex függvények értékeinél. Például lehet, hogy nem tudjuk, kicsoda a Konzulens(János). Ekkor a Konzulens(János) egy valószínűségi változó lesz, aminek lehetséges értékei KovácsProf és MórProf. A megfelelő hálót a 14.17. ábra mutatja.

Szintén jelen lehet azonossági bizonytalanság (identity uncertainty); például esetleg nem tudjuk, hogy Mária és KovácsProf ugyanaz a személy-e. Azonossági bizonytalanság esetén az objektumok és az állítások száma változhat a lehetséges világokban. Annak a világnak, ahol Mária és KovácsProf ugyanaz a személy eggyel kevesebb objektuma van, mint annak a világnak, ahol ők különböző személyek. Ez a következtetési eljárást bonyolultabbá teszi, de a (14.12) egyenlet által lefektetett alapelv érvényben marad: bármely kijelentés valószínűsége jól definiált és kiszámítható. Az azonossági bizonytalanság különösen fontos robotok és beágyazott érzékelőrendszerek esetén, amelyeknek több objektumot is követniük kell. Erre a problémára a 15. fejezetben viszszatérünk.

14.17. ábra - Egy Bayes-háló részlete, ami egy olyan RVM-hez tartozik, amelyben a Konzulens(János) ismeretlen, de vagy KovácsProf, vagy MórProf. A konzulens választása az egyes professzorok finanszírozásától függ. Vegyük észre, hogy a Siker(János) most mind a két professzor Hírnev-étől függ, bár a Konzulens(János) értéke meghatározza, hogy valójában melyiknek is van hatása.
Egy Bayes-háló részlete, ami egy olyan RVM-hez tartozik, amelyben a Konzulens(János) ismeretlen, de vagy KovácsProf, vagy MórProf. A konzulens választása az egyes professzorok finanszírozásától függ. Vegyük észre, hogy a Siker(János) most mind a két professzor Hírnev-étől függ, bár a Konzulens(János) értéke meghatározza, hogy valójában melyiknek is van hatása.

Vizsgáljuk meg most a következtetés kérdését. Világos, hogy a következtetés elvégezhető az ekvivalens Bayes-hálóban, feltéve, hogy az RVM nyelvet úgy korlátozzuk, hogy az ekvivalens háló véges és rögzített struktúrájú. Ez analóg azzal a módszerrel, ahogy elsőrendű logikai következtetést végezhetünk el ítéletlogikai következtetéssel, az ekvivalens ítéletlogikai tudásbázisban (lásd 9.1. alfejezet). Ahogy a logikai esetben is, az ekvivalens háló túlságosan nagy ahhoz, hogy megkonstruáljuk, különösen ahhoz, hogy kiértékeljük. A sűrű összekötöttség szintén probléma (lásd 14.12. feladat). A közelítő algoritmusok, mint az MCMC (lásd 14.5. alfejezet), ezért igen hasznosak RVM-kben való következtetésre.

Amikor az MCMC-t egy egyszerű RVM-tudásbázisának az ekvivalens Bayes-hálójára alkalmazzuk, ahol a tudásbázis nem tartalmaz kapcsolati vagy azonossági bizonytalanságot, az algoritmus a lehetséges világok teréből mintavételez, amit az objektumok egyszerű függvényeinek értékei határoznak meg. Világosan látható, hogy ez a megközelítés kiterjeszthető a kapcsolati és az azonossági bizonytalanságok kezelésére is. Ebben az esetben a lehetséges világok közötti átmenet lehet, hogy egy egyszerű függvény értékét vagy egy komplex függvényt változtat meg, ami a függési struktúra megváltozásához is vezethet. Az átmenetek szintén megváltoztathatják a konstans szimbólumok közötti azonossági relációkat. Így az MCMC elegáns módszernek tűnik következtetések elvégzésére igen nagy kifejezőerejű, elsőrendű valószínűségi tudásbázisokban.

A kutatás ezen a területen még a kezdeteknél tart, de az egyre nyilvánvalóbb, hogy az elsőrendű valószínűségi érvelés az MI-rendszerek óriási hatékonyságnövekedését eredményezi a bizonytalanság kezelése kapcsán. A potenciális alkalmazások között jelen van a számítógépes látás, a számítógépes nyelvészet, az információ-visszakeresés és a szituációértékelés. Ezen területek mindegyikén az objektumok halmaza – és így valószínűségi változók halmaza – nem ismert előre, így a tisztán „kijelentéseken” alapuló módszerek, mint például a Bayes-hálók, nem képesek a helyzetet teljesen leírni. Ezen módszereket kiegészítették a modellek tere feletti kereséssel, de az RVM-ek egyetlen modellben teszik lehetővé a következtetést ilyen típusú bizonytalanság esetén is.



[152] Nagyon hasonló szerepet töltenek be, mint a változómentes atomi mondatok, amelyek a 9.1. alfejezetben leírt ítéletlogikai állításokra való visszavezetési folyamatban generálódnak.

[153] Ez a megkötés azt jelenti, hogy nem használhatunk olyan komplex függvényeket, mint Apa vagy Anya, amelyek potenciálisan végtelen láncokat eredményezhetnének egy ismeretlen objektummal végződve. Ezt a megkötést később újra meggondoljuk.