13.2. Valószínűségi alapfogalmak

Miután felállítottuk a racionális ágens általános keretét, szükségünk lesz egy formális nyelvre a bizonytalan tudás leírásához és a következtetéshez. Minden olyan jelölésnek, amely a meggyőződésünk fokának leírására szolgál, képesnek kell lennie két fő dolog kezelésére: az egyik a kijelentések jellege, amelyekhez meggyőződési mértéket akarunk rendelni, a másik pedig a meggyőződés mértékének az ágens tapasztalatától való függése. A valószínűség-elmélet itt bemutatott változata az ítéletlogika egy kiterjesztését használja állításaihoz. A tapasztalattól való függés az a priori valószínűségi kijelentések és a feltételes valószínűségi állítások szintaktikai megkülönböztetésében tükröződik. Az a priori valószínűségi kijelentéseket akkor alkalmazzuk, mielőtt még tények birtokába jutnánk, míg a feltételes valószínűségi kijelentések explicit módon tartalmazzák a megszerzett tényeket.

13.2.1. Állítások

A hiedelmi mértékeket mindig állításokhoz (propositions) rendeljük – amelyek ez és ez a helyzet típusú kijelentések. Az állítások leírására eddig két formális nyelvet – az ítéletlogikát és az elsőrendű logikát – használtuk. Ez az alfejezet egy olyan nyelvet ír le, amelyet a valószínűség-elmélet jellegzetesen használ, és amely valamelyest kifejezőbb az ítéletlogikánál. (A 14.6. alfejezet azokat a módszereket taglalja, amelyek megadják, hogy milyen hiedelmi mértékek tulajdoníthatók az elsőrendű logika egyes kijelentéseinek.)

A nyelv alapeleme a valószínűségi vagy véletlen változó (random variable), ami úgy tekinthető, mint ami egy kezdetben ismeretlen „állapotú” világ egy „részére” vonatkozik. Például a Lyuk a bal alsó bölcsességfogam esetleges lyukasságát mutatja. A véletlen változók a kényszerkielégítési problémáknál megismert CSP-változókhoz és az ítéletlogikánál használt ítéletszimbólumhoz hasonló szerepet játszanak.

A véletlen változókat mindig nagybetűvel kezdjük. (Ugyanakkor az ismeretlen véletlen változókat változatlanul kis- és egybetűs nevekkel fogjuk jelölni, például: P(a) = 1 – P(¬a).)

Minden valószínűségi változóhoz tartozik egy értéktartomány (domain), amelyből az értékeit veheti. Például a Lyuk tartománya az 〈igaz, hamis〉 lehetne.^[134] (Az értékeket kisbetűs nevekkel fogjuk jelölni.) Az állítások legegyszerűbb fajtája azt jelenti ki, hogy a valószínűségi változó valamilyen konkrét értéket vesz fel a tartományon belül. Például a Lyuk = igaz azt reprezentálja, hogy nekem valóban lyukas a bal alsó bölcsességfogam.

A véletlen változók – a CSP-változókhoz hasonlóan – tipikusan három csoportba sorolhatók a tartomány fajtájától függően:

(Boole-típusú) logikai véletlen változók (Boolean random variables), mint a Lyuk, amelyeknek az 〈igaz, hamis〉 a tartománya. Az olyan állításokat, mint a Lyuk = igaz gyakran rövidítve, csak a kis kezdőbetűs nevével – lyuk – fogjuk jelölni, míg a Lyuk = hamis állítás rövidített jelölése: ¬lyuk.
Diszkrét véletlen változók (discrete random variables), amelyek speciális esetben logikai változók is lehetnek, egy megszámlálható tartományból vesznek fel értéket. Például az Időjárás tartománya a 〈napos, esős, felhős, havazik〉 lehet. A tartomány értékeinek egymást kizáróknak és összességében kimerítőknek (teljeseknek) kell lenniük. Ha ez nem okozhat félreértést, akkor a havazik rövidítés fogja jelölni például az Időjárás = havazik állítást.
Folytonos véletlen változók (continuous random variables), amelyek valós értéket vehetnek fel. A tartomány lehet akár a teljes valós tengely, akár annak egy részhalmaza, mint a [0, 1] intervallum. Például az az állítás, hogy X = 4,02 azt jelenti ki, hogy az X véletlen változó értéke pontosan 4,02. A véletlen változókra vonatkozó állítások egyenlőtlenségek is lehetnek, mint például X ≤ 4,02.

Néhány kivételtől eltekintve, mi a diszkrét esetre fogunk koncentrálni.

Az összetett állítások létrehozásához az olyan elemi állítások, mint a Lyuk = igaz vagy a Fogfájás = hamis, bármely szokásos logikai kapcsolat felhasználásával kombinálhatók. Például a Lyuk = igaz ∧ Fogfájás = hamis egy olyan állítás, amelyhez valamilyen hihetőségi (hihetetlenségi) mértéket rendelhetünk. Ahogy az előző bekezdésben leírtuk, a fenti állítást úgy is jelölhetjük, hogy fogszuvasodás ∧ ¬fogfájás.

13.2.2. Elemi események

Az elemi esemény (atomic event) jelölés hasznos a valószínűség-elmélet alapjainak megértésében. Egy elemi esemény a világ – amely tekintetében az ágens bizonytalan – állapotának egy teljes leírását jelenti. Úgy is tekinthetjük, mint a világot alkotó összes változóhoz való konkrét érték hozzárendelését. Például, ha a világomat csak a Lyuk és a Fogfájás logikai változók alkotják, akkor pontosan négy különböző elemi esemény létezik; amelyek közül a Lyuk = hamis ∧ Fogfájás = igaz egy esemény.^[135]

Az elemi eseményeknek van néhány fontos tulajdonsága:

Az elemi események egymást kölcsönösen kizáró események – legfeljebb egyikük lehet igaz. Például, nem lehet egyszerre igaz a lyuk ∧ fogfájás, valamint a lyuk ∧ ¬fogfájás.
Az összes elemi esemény halmaza kimerítő – legalább az egyiknek igaznak kell lennie. Azaz az összes elemi esemény egyesítése logikailag egyenértékű az igaz állítással.
Minden egyes elemi esemény maga után vonja következményként az összes állítás igazságát vagy hamisságát függetlenül attól, hogy azok egyszerűek vagy összetettek. Ez a logikai kapcsolatok szokásos szemantikájának alkalmazása révén mutatható meg (lásd 7. fejezet). Például a lyuk ∧ ¬fogfájás elemi esemény következménye a fogszuvasodás igaz volta és a lyuk ⇒ fogfájás hamissága.
Bármely állítás logikailag egyenértékű azon elemi események diszjunkciójával, amelyekből az állítás következik. Például a lyuk állítás ekvivalens a lyuk ∧ fogfájás és a lyuk ∧ ¬fogfájás elemi események egyesítésével.

A 13.4. feladat a fenti tulajdonságok bizonyítását célozza.

13.2.3. A priori valószínűség

Az a állításhoz tartozó feltétel nélküli (unconditional) vagy a priori valószínűség (prior probability) azt a meggyőződési mértéket jelenti, amely bármely más információ hiányában az állításhoz kapcsolható; jelölése P(a). Például ha 0,1 annak az a priori valószínűsége, hogy van lyukas fogam, akkor

P(Lyuk = igaz) = 0,1 vagy P(lyuk) = 0,1-et írhatunk.

Fontos megjegyeznünk, hogy P(a) csak akkor használható, ha nincs semmilyen más információ a birtokunkban. Amint ismertté válik valamilyen új információ, a továbbiakban már a adott új információ melletti feltételes valószínűségével kell következtetnünk. A feltételes valószínűségekkel a következő alfejezet foglalkozik.

Bizonyos esetekben előfordulhat, hogy beszélni szeretnénk egy véletlen változó összes lehetséges értékének valószínűségéről. Ilyen esetekben a P(Időjárás) kifejezés használható, amely az időjárás minden egyes állapotához rendelt valószínűségi értékekből képzett vektort jelöli. Következésképpen, ahelyett hogy az alábbi négy egyenletet írnánk le

P(Időjárás = napos) = 0,7

P(Időjárás = esős) = 0,2

P(Időjárás = felhős) = 0,08

P(Időjárás = havazik) = 0,02

elegendő egyszerűen azt írnunk, hogy

P(Időjárás) = 〈0,7, 0,2, 0,08, 0,02〉

Az ilyen kijelentés az Időjárás véletlen változó előzetes valószínűség-eloszlását (probability distribution) definiálja.

Olyan kifejezéseket is használni fogunk, mint a P(Időjárás, Lyuk), hogy egy véletlen változóhalmaz összes lehetséges kombinációjának valószínűségeit jelölni tudjuk.^[136] Ekkor a P(Időjárás, Lyuk) egy 4 × 2-es valószínűségi táblázatot jelent. Ez az Időjárás és Lyuk együttes valószínűség-eloszlása (joint probability distribution).

Hasznos lehet az is, ha világot leíró véletlen változók teljes halmazáról gondolkozunk. Az olyan együttes valószínűség-eloszlást, amely lefedi a teljes halmazt teljes együttes valószínűség-eloszlásnak (full joint probability distribution) nevezzük. Például, ha a világ csak a Lyuk, a Fogfájás és az Időjárás változókból áll, akkor a teljes együttes valószínűség-eloszlást a

P(Lyuk, Fogfájás, Időjárás)

adja meg. Ez az együttes valószínűség-eloszlás egy 16 elemű, 2 × 2 × 4-es táblázattal reprezentálható. A teljes együttes valószínűség-eloszlás minden egyes elemi esemény valószínűségét, és így a kérdéses világgal kapcsolatos összes bizonytalanságot meghatározza. A 13.4. alfejezetben látni fogjuk, hogy a teljes együttes valószínűség-eloszlás alapján bármely valószínűségi kérdés megválaszolható.

Folytonos változók esetén az eloszlás nem foglalható össze táblázatos formában, mivel a lehetséges értékek száma végtelen. Ehelyett annak valószínűsége, hogy egy valószínűségi változó egy adott x értéket vesz fel, általában x egy paraméterezett függvényeként definiálható. Például az X véletlen változó jelölje a holnapi hőmérséklet maximumát Berkeleyben. Ezzel a

P(X = x) = U[18, 26](x)

kijelentés azt a hiedelmet fejezi ki, hogy X egyenletes eloszlást mutat 18 és 26 °C között. (Néhány hasznos folytonos valószínűségi változó definícióját az A) függelékben találjuk meg.) A folytonos valószínűségi változókra vonatkozó valószínűségi eloszlást valószínűség-sűrűségfüggvénynek (probability density function) nevezzük. A sűrűségfüggvények jelentése különbözik a diszkrét eloszlásokétól. Például a korábbiakban megadott hőmérsékleteloszlásból kiindulva P(X = 20,5) = U[18, 26](20,5) = 0,125/°C adódik. Ez nem azt jelenti, hogy annak az esélye, hogy a holnapi maximális hőmérséklet pontosan 20,5 °C lesz 12,5%; ennek a valószínűsége természetesen 0. Technikailag ez azt jelenti, hogy annak a valószínűsége, hogy a kérdéses hőmérséklet a 20,5 °C egy kicsiny környezetébe fog esni, határértékét tekintve egyenlő azzal, hogy a 0,125-öt elosztjuk a szakasz °C-ban megadott szélességével:

Néhány szerző a diszkrét eloszlások és a sűrűségfüggvények jelölésére más szimbólumot használ; mi P-vel fogjuk jelölni mindkettőt, mivel ritkán lehet ezeket összekeverni, és az egyenletek általában azonos formájúak. Jegyezzük meg ugyanakkor, hogy míg a valószínűségek mértékegység nélküli számok, a sűrűségfüggvényeknek van mértékegysége, a fenti példában 1/°C.

13.2.4. Feltételes valószínűség

Amint az ágens bizonyos tények birtokába jut a korábban ismeretlen, a tartományra jellemző véletlen változóra vonatkozóan, az a priori valószínűségek többé nem használhatók. Ehelyett a feltételes (conditional) vagy a posteriori (posterior) valószínűségeket használhatjuk. Jelölése P(a∣b), ahol a és b tetszőleges állítás lehet.^[137] Értelmezése: a valószínűsége, ha b-t és csak b-t tudjuk. Például,

P(Lyuk∣Fogfájás) = 0,8

azt jelenti, hogy ha egy betegnél megfigyeltük, hogy fogfájása van, és semmilyen más információnk nincs vele kapcsolatban, akkor annak a valószínűsége, hogy szuvas a foga 0,8. Egy P(lyuk) típusú a priori valószínűség tekinthető a P(lyuk∣) feltételes valószínűség speciális esetének, ahol a feltételt a „semmi bizonyíték” jelenti.

A feltételes valószínűségek megadhatók feltétel nélküliek segítségével. A definíció

minden P(b) > 0 esetén igaz. Az egyenletet írhatjuk

P(a ∧ b) = P(a∣b)P(b)

alakban is, amelyet szorzatszabálynak (product rule) hívunk. A szorzatszabályt talán könnyebb megjegyezni: ez abból következik, hogy a és b együttes teljesüléséhez, szükséges, hogy b igaz legyen, valamint hogy a is igaz legyen b feltétele mellett. A szabályt megadhatjuk fordítva is:

P(a ∧ b) = P(b∣a)P(a)

Bizonyos esetekben könnyebb a konjunkciók feltétel nélküli (a priori) valószínűségeit használni, azonban mi az esetek többségében feltételes valószínűségeket fogunk alkalmazni valószínűségi következtetéseink eszközeként.

A P jelölést használhatjuk feltételes eloszlásokra is. P(X∣Y) a P(X = x_i∣Y = y_i) értékeit adja meg minden lehetséges i-re, j-re. Annak példájaként, hogy ez mennyivel tömörebbé teszi a jelölést, képzeljük el a szorzatszabály alkalmazását minden olyan esetre, ahol az a és b állítások X és Y bizonyos értékeit veszik fel. A következő egyenleteket fogjuk kapni:

P(X = x₁ ∧ Y = y₁) = P(X = x₁∣Y = y₁) = P(Y = y₁)

P(X = x₁ ∧ Y = y₂) = P(X = x₁∣Y = y₂) = P(Y = y₂)

Mindezt összefoglalhatjuk egyetlen egyenletben is:

P(X, Y) = P(X∣Y)P(Y)

Ne felejtsük, hogy ez egy olyan egyenlethalmaz jelölésére szolgál, amely kapcsolatba hozza a táblázatok megfelelő elemeit, és nem a táblázatok mátrix szorzásáról van szó. Csábító, de helytelen a feltételes valószínűségeket bizonytalansággal kiegészített logikai implikációkként tekinteni. Például a P(a∣b) = 0,8 állítást nem lehet úgy értelmezni, hogy amikor csak igaz b, P(a) 0,8-del egyenlő. Ez két okból is téves: először is P(a) mindig a előzetes valószínűségét, és nem a valamilyen tény megléte esetén alkalmazandó utólagos valószínűségét jelöli; másrészről pedig a P(a|b) = 0,8 csak akkor alkalmazható, ha b az egyetlen tény, amelynek birtokában vagyunk. Ha ismerünk egy további c információt is, akkor a hihetőségi mértékét P(a∣b ∧ c) fogja adni, amely akár független is lehet P(a∣b)-tól. Például c megadhatja közvetlenül azt is, hogy a igaz vagy hamis. Ha megvizsgálunk egy beteget, aki fogfájásra panaszkodik, és találunk egy lyukas fogat, akkor a további, lyuk információnak jutottunk birtokába, és így természetesen, arra a következtetésre fogunk jutni, hogy P(lyuk∣fogfájás ∧ lyuk) = 1,0.

^[134] Egyesek elvárása szerint a tartományt halmazként kellene megadni: {igaz, hamis}. Mi állítások n-eseként írjuk le, mivel a későbbiekben ez megkönnyíti egy rendezés hozzárendelését.

^[135] A valószínűség-elmélet számos formája az elemi eseményt, más néven mintát (sample point) egy primitívnek tekinti. A véletlen változót pedig, mint egy függvényt definiálja, amelynek bemenete egy elemi esemény, kimenetként pedig a megfelelő tartomány egy értékét adja. Ez a megközelítés talán általánosabb, de ugyanakkor kevésbé intuitív.

^[136] Az általános jelölési szabály szerint az eloszlás a nagybetűs változók összes értékét tartalmazza. Azaz, a P(Időjárás, lyuk) a valószínűségek egy olyan négyelemű vektorát jelenti, amelyben minden egyes időjárás-állapot valószínűsége szerepel Lyuk = igaz mellett.

^[137] A „∣” operátor a lehető legkevesebb előzményt jelenti, azaz a P(a ∧ b|c ∨ d) P((a ∧ b)|(c ∨ d))-vel egyenértékű.

Mesterséges Intelligencia Elektronikus Almanach

Elsődleges linkek

13.2. Valószínűségi alapfogalmak

13.2.1. Állítások

13.2.2. Elemi események

13.2.3. A priori valószínűség

13.2.4. Feltételes valószínűség