22.1. A kommunikáció mint cselekvés

Egy ágens számára a beszéd létrehozása lehetséges cselekvéseinek egyike. Ezt szólásaktusnak (speech act) nevezzük. A „beszédet” olyan értelemben használjuk, mint „szabad közlést”, nem mint „beszélgetést”, így az elektronikus levelezés, a mutogatás és a jelbeszéd használata mind szólásaktusnak számít. Az angol nyelvben nincs általános szó a beszédet létrehozó ágensre, amely beszél, ír vagy másképp fejezi ki magát. A beszélő (speaker), a hallgató (listener) és a megnyilatkozás (utterance) kifejezéseket használjuk a kommunikáció bármilyen módjának általános leírására. A szó (word) kifejezést használjuk mindenféle szokásos kommunikációs jelre.

Miért foglalkozna egy ágens szólásaktus létrehozásával, amikor „hagyományos” cselekvést is végrehajthat? A 12. fejezetben láttuk, hogy többágenses környezetekben az ágensek használhatják a kommunikációt annak érdekében, hogy közös tervet alakítsanak ki. Például a wumpus világot felfedező ágensek egy csoportja együtt (egyéni vagy csoportos) előnyhöz jut, ha képes a következőket megtenni:

Megkérdezik (query) egymást a világ különféle területeiről. Ezt tipikusan kérdések feltevésével végzik: Érezted a wumpus bűzét valahol?
Értesítik (inform) egymást a világról. Ezt kijelentésekkel teszik meg: Szellő van itt, a [3, 4]-en. Egy kérdés megválaszolása egy másik fajta értesítés.
Kérnek (request) más ágenseket cselekvések végrehajtására: Kérlek segíts az aranyat vinni! Néha egy indirekt szólásaktus (indirect speech act) (egy kijelentés vagy kérdés formájú kérés) udvariasabbnak számít: Használni tudnék egy kis segítséget ennek a cipelésében. Egy fennhatósággal rendelkező ágens adhat parancsokat (Alfa jobbra menj; Bravo és Charlie balra), és egy hatalommal rendelkező ágens fenyegethet (Ide nekem az aranyat, vagy…). Ezen szólásaktusokat együtt direktíváknak (directives) nevezik.
Tudomásul veszik (acknowledge) a kéréseket: Rendben.
Megígérnek (promise) vagy hozzájárulnak egy tervhez: Én lelövöm a wumpust; te megragadod az aranyat.

Minden szólásaktus befolyásolja a világot a levegőmolekulák rezgetésével (vagy ekvivalens hatással más médiumban), és ily módon megváltoztatja más ágensek mentális állapotát, valamint végső fokon a jövőbeli cselekedeteiket is. Bizonyos szólásaktusok információt juttatnak a hallgatóhoz, feltételezve, hogy a hallgató döntéshozatalát megfelelően befolyásolja az információ. Mások sokkal célzottabban késztetik a hallgatót valamilyen cselekvés véghezvitelére. A szólásaktusok további osztálya a deklaratív (declarative), amely sokkal közvetlenebb hatást gyakorol a világra: férjnek és feleségnek nyilvánítom önöket vagy Harmadik találat, ön kiesett. Természetesen a hatást az érintett ágensek mentális állapotai komplex hálózatának létrehozása vagy tudomásulvétele éri el: házasnak lenni vagy kiesni, olyan állapotok, amelyeket megállapodások rögzítenek és nem a világ „fizikai” jellemzői.

A kommunikáló ágens feladata annak eldöntése, hogy mikor van szükség egy szólásaktusra, és hogy melyik a helyénvaló az összes lehetséges közül. A szólásaktusok megértésének problémája hasonlatos más megértési (understanding) problémákhoz, mint például a képek megértése vagy a betegségek diagnosztizálása. Kapunk egy halmazt többértelmű bemenetekkel, amikből visszafelé haladva azt kell eldöntenünk, hogy a világ mely állapota hozhatta létre őket. Azonban mivel a beszéd tervezett cselekvés, a megértés magában foglalja a tervfelismerést is.

22.1.1. A nyelv alapjai

A formális nyelvet (formal language) karakterfüzérek (strings) (lehetséges, hogy végtelen) halmazaként definiáljuk. Minden egyes füzér az úgynevezett záró (vagy terminális) szimbólumok (terminal symbols) – amelyeket néha szavaknak hívunk – öszszekapcsolt sorozata. Például az elsőrendű logikában a záró szimbólumok között van a ∧ és a P, és egy tipikus füzér a „P ∧ Q”. A „P Q ∧” füzér nem része a nyelvnek. A formális nyelvek, mint például az elsőrendű logika vagy a Java, szigorú matematikai definíciókkal rendelkeznek. Ezzel ellentétben a természetes nyelvek (natural languages), mint például a kínai, a dán és az angol, nem rendelkeznek szigorú definícióval, hanem beszélők egy közössége használja. Ebben a fejezetben a természetes nyelveket megpróbáljuk formális nyelveknek tekinteni, bár tisztában vagyunk azzal, hogy az illeszkedés nem lesz tökéletes.

A nyelvtan (grammar) a nyelvet meghatározó szabályok véges halmaza. A formális nyelveknek mindig van egy hivatalos nyelvtana, amelyet kezelési útmutatókban vagy könyvekben határoznak meg. A természetes nyelveknek nincs hivatalos nyelvtana; bár a nyelvészek törekszenek a nyelv tulajdonságainak felfedezésére tudományos vizsgálatokkal, majd ezen felfedezések rögzítésére egy nyelvtanban. Eddig egyetlen nyelvész sem járt teljes sikerrel. Figyeljük meg, hogy a nyelvészek tudósok, akik a nyelvet úgy próbálják definiálni, ahogy az létezik. Vannak olyan előíró nyelvészek is, akik megpróbálják diktálni, hogy a nyelvnek milyennek kellene lennie. Olyan szabályokat alkotnak, mint például a „használd az ikes ragozást”, amelyeket néha megjelentetnek stílusútmutatókban, de kevés valódi hatásuk van a beszélt nyelvre.

Mind a formális, mind a természetes nyelvek jelentést, avagy szemantikát (semantics) rendelnek minden egyes érvényes füzérhez. Például az aritmetika nyelvén lenne egy szabályunk, hogy ha „X” és „Y” kifejezések, akkor „X + Y” szintén kifejezés, amelynek a szemantikája X és Y összege. Természetes nyelvekben hasonlóan fontos a füzérek pragmatikáját (pragmatics) is megérteni: a füzér aktuális jelentését, ahogy az elhangzik egy adott szituációban. A jelentés nemcsak a szavakban rejlik, hanem a szavak in situ értelmezésében.

A legtöbb nyelvtani szabály formalizmus a kifejezésstruktúra (phrase structure) ötletére épül – azaz arra, hogy a füzérek kifejezéseknek (phrases) nevezett, különböző kategóriából származó részfüzérekből állnak össze. Például „a wumpus”, „a király” és „a sarokban levő ágens”^[220] kifejezések mind az úgynevezett főnévi kifejezés (noun phrase) (vagy röviden NP) kategória példái. Két ok létezik arra, hogy a kifejezéseket ilyen módon megkülönböztessük. Az egyik, hogy a kifejezések általában természetes szemantikus elemeknek felelnek meg, amelyekből a kijelentés jelentése megalkotható; például a főnévi kifejezések a világ objektumaira vonatkoznak. A másik, hogy a kifejezések kategorizálása segít a nyelv megengedett füzéreinek leírásában. Azt mondhatjuk, hogy a főnévi kifejezések bármelyike kombinálható egy igei kifejezéssel (verb phrase) (VP), mint például „is dead” (halott), hogy közösen egy olyan kifejezést fomáljanak, amelyik a mondat (sentence) (S) kategóriába tartozik. A főnévi és igei kifejezés közbülső fogalma nélkül sokkal bonyolultabb lenne elmagyarázni, hogy miért jó mondat a „the wumpus is dead” és miért nem a „wumpus the dead is”.

Fontos

Generálóképesség

A nyelvtani formalizmusok osztályozhatók generálóképességük (generative capacity) szerint: azoknak a nyelveknek a halmaza szerint, amelyeket képesek reprezentálni. Chomsky a nyelvtani formalizmusok négy osztályát írta le, amelyek csak az átíró szabályok formájában különböznek (Chomsky, 1957). Az osztályok hierarchiába rendezhetők, ahol minden osztály felhasználható az összes olyan nyelv leírására, ami leírható egy nála gyengébb osztállyal, és még néhány további nyelvre is. Itt most felsoroljuk a hierarchiát, a legerősebbel kezdve.

A rekurzívan felsorolható nyelvtanok (recursively enumerable grammars) korlátozás nélküli szabályokat használnak: az átíró szabályok mindkét oldala tetszőleges számú záró és nem záró szimbólumot tartalmazhat, mint például az A B → C szabály. Ezen nyelvtanok kifejezőereje megegyezik a Turing-gépével.

A környezetérzékeny nyelvtanok (context-sensitive grammars) csak olyan értelemben korlátozottak, hogy a jobb oldalnak legalább annyi szimbólumot kell tartalmaznia, mint a bal oldalnak. A környezetérzékeny (környezetfüggő) elnevezés abból a tényből ered, hogy egy A S B → A X B szabály azt mondja, hogy egy S átírható X-re egy megelőző A és egy követő B környezetében. A környezetérzékeny nyelvtanok leírhatnak például olyan nyelvet, mint az aⁿbⁿcⁿ (a-k n hosszúságú sorozata, amelyet ugyanannyi b és c követ).

A környezetfüggetlen nyelvtanok (context-free grammars) (vagy CFG-k) esetében a bal oldal egyetlen nem záró szimbólumot tartalmaz. Így minden egyes szabály megengedi a nem záró szimbólum átírását a jobb oldalra tetszőleges környezetben. A CFG-k népszerűek a természetes és programozási nyelvek nyelvtanai körében, bár ma már széles körben elfogadott, hogy létezik legalább néhány olyan természetes nyelv, mely tartalmaz olyan szerkezeteket, melyek nem írhatók le környezetfüggetlen nyelvtannal (Pullum, 1991). A környezetfüggetlen nyelvtanok képesek reprezentálni aⁿbⁿ-t, de nem aⁿbⁿcⁿ-t.

A reguláris nyelvtanok (regular grammars) a legkorlátozottabb osztály. Minden szabálynak van egyetlen nem zárója a bal oldalán, és egy záró szimbólum a jobb oldalon, amit opcionálisan követhet egy nem záró. A reguláris nyelvtanok a véges automatával ekvivalens erejűek. Gyengén alkalmasak programozási nyelvek számára, például nem képesek nyitó és bezáró zárójelek egyensúlyát leíró szerkezetek ábrázolására (az aⁿbⁿ nyelv egy változata). Ehhez legközelebb a^*b^* reprezentálásával juthatnak, amely tetszőleges számú a sorozatát követő tetszőleges számú b.

A hierarchiában fentebb helyezkedő nyelvtanoknak nagyobb a kifejezőereje, de a kapcsolódó algoritmusok kevésbé hatékonyak. Az 1980-as évek közepéig a nyelvészek a környezetfüggetlen és környezetérzékeny nyelvtanokkal foglalkoztak. Azóta nagyobb hangsúlyt fektetnek reguláris nyelvtanokra, amelyeket az elektronikusan elérhető szövegek mega- és gigabájtjainak gyors, még a kevésbé teljes analízis árán is történő feldolgozási igénye hívott életre. Ahogy Fernando Pereira mondta: „Minél öregebb leszek, annál lentebb megyek a Chomsky-hierarchián.” Hogy lássuk, mit értett ezen, vesse össze (Pereira és Warren, 1980; Mohri, Pereira és Riley, 2002)

Az NP, a VP és az S kategóriák úgynevezett nem záró szimbólumok (nonterminal symbols). A nyelvtanok átíró szabályok (rewrite rules) segítségével definiálják a nem záró szimbólumokat. Az átíró szabályok leírására a Backus–Naur-formát (BNF) fogjuk átvenni, amelyet a B) függelékben írunk le az 1. szakasz - B1. Nyelvek definiálása Backus–Naur-Formában (BNF) részben. Ezen jelölés szerint egy

S → NP VP

szabály jelentése az, hogy egy S egy tetszőleges NP kategóriájú kifejezésből és az azt követő tetszőleges VP kategóriájú kifejezésből áll.

22.1.2. A kommunikációt alkotó lépések

Egy tipikus kommunikációs epizód, amikor S beszélő P állítást szeretné átadni H hallgatónak W szavakkal, hét folyamatból áll:

Szándék (intention). S beszélő valahogy eldönti, hogy van egy P propozíció, amit érdemes elmondani H hallgatónak. A példánkban a beszélőnek az a szándéka, hogy a hallgató tudomására hozza, hogy a wumpus már nem él.

Létrehozás (generation). A beszélő megtervezi, hogy P propozíciót hogyan alakítsa át olyan kijelentéssé, amely valószínűvé teszi, hogy a hallgató, fogadva a kijelentést a jelenlegi szituációban, kikövetkeztetheti P jelentést (vagy egy hozzá közelit). Tételezzük fel, hogy a beszélő képes a következő szavakat létrehozni: „The wumpus is dead” (A wumpus halott), és jelöljük ezt W-vel.

Szintézis (synthesis). A beszélő létrehozza W szavak fizikai realizációját, W'-t. Ezt teheti tintával papíron, rezgésekkel levegőben vagy valamilyen más médiumon. A 22.1. ábrán egy olyan ágenst mutatunk, amely a 15.6. szakasz - Beszédfelismerés részben definiált fonetikus ábécével leírt W' hangfüzér szintézisét végzi: „[thaxwahmpaxsihzdehd]”. A szavak egybefolytak, ami tipikus a gyorsan beszélt nyelv esetében.

Észlelés (perception). H észleli a W' fizikai megvalósulást, mint W'₂-t, és W₂ szavakként dekódolja. Amikor a médium a beszéd, az észlelési lépést beszédfelismerésnek (speech recognition) nevezzük; amikor az írás, akkor optikai karakter felismerésének (optical character recognition). Mindkettő elmozdult az elvont léttől a mindennapi előfordulás irányába a kilencvenes években, főként az asztali számítógépek jelentős mértékben növekvő teljesítményének köszönhetően.

22.1. ábra - A kommunikációban részt vevő hét folyamat, a „The wumpus is dead” mondat felhasználásával

Analízis (analysis). H kikövetkezteti, hogy W₂-nek P₁, …, P_n lehetséges jelentése van. Az analízist három fő részre osztjuk: szintaktikai elemzésre (parsing), szemantikai értelmezésre és pragmatikus értelmezésre. Az elemzés (parsing) egy bemeneti füzérhez tartozó elemzési, más szóval levezetési fa (parse tree) építésének a folyamata, ahogy a 22.1. ábrán látható. Az elemzési fa belső csomópontjai kifejezéseket reprezentálnak, míg a levelek szavakat jelképeznek. A szemantikus értelmezés (semantic interpretation) az a folyamat, amelynek során kinyerjük egy kijelentés jelentéstartalmát valamilyen reprezentációs nyelven. A 22.1. ábrán két lehetséges szemantikai értelmezést mutatunk be: azt, hogy a wumpus nem él, és azt, hogy fáradt (a dead egy köznyelvi jelentése). A több lehetséges értelmezéssel rendelkező kijelentéseket többértelműnek (ambiguous) mondjuk. A pragmatikus értelmezés (pragmatic interpretation) figyelembe veszi azt a tényt, hogy ugyanazon szavaknak más jelentése lehet eltérő helyzetekben. Míg a szintaktikai értelmezés egy egy argumentummal, a füzérrel rendelkező függvény, addig a pragmatikus értelmezés a kijelentést és annak környezetét vagy szituációját figyelembe vevő függvény. A példában a pragmatikus elemzés két dolgot tesz: a Now konstans értéket kicseréli az S₃ konstanssal, ami a jelenlegi szituációt jelenti, illetve a Wumpus-t kicseréli Wumpus₁-re, ami arra az egyetlen Wumpusra utal, amelyről tudott, hogy a barlangban van. Általánosságban a pragmatikus elemzés a kijelentés végső értelmezéséhez sokkal többel járulhat hozzá; gondoljunk csak például arra, amikor a „A gyémántra nézek” elhangzik egy ékszerész, illetve egy baseballjátékos szájából.^[221] A 22.7. alfejezetben látni fogjuk, hogy a pragmatikus elemzés segít értelmezi az „It is dead” kijelentést úgy, hogy a wumpus halott, ha egy olyan szituációban vagyunk, amikor a wumpus áll a figyelem középpontjában.

A többértelműség feloldása (disambiguation). H kikövetkezteti, hogy S P_i-t szándékozott közölni (ahol ideális esetben P_i = P). A beszélők többsége nem szándékosan többértelmű, de a legtöbb kijelentésnek több megengedett értelmezése van. A kommunikáció azért működik, mivel a hallgató elvégzi azt a munkát, hogy rájöjjön, hogy melyik az az értelmezés, amit a beszélő valószínűleg közölni akart. Vegyük észre, hogy ez az első alkalom, amikor a valószínűleg szót használtuk, és a többértelműség feloldása az első eljárás, ami erőteljesen valószínűségi következtetésen alapul. Az analízis lehetséges értelmezéseket állít elő; ha egynél több értelmezést talál, akkor a többértelműség feloldása választja ki a legjobbat.

Beépítés (incorporation). H eldönti, hogy elhiszi P_i-t (vagy nem). Egy teljesen naiv ágens mindent elhihet, amit hall, de egy kifinomultabb ágens úgy kezeli a szólásaktust, mint egy P_i-t alátámasztó tényt, és nem mint annak a megerősítését.

Mindezeket összerakva a 22.2. ábrán látható ágensprogramot kapjuk. Itt az ágens robotszolgaként működik, amit egy gazda irányíthat. A szolga minden lépésben megválaszolja a gazda kérdését, illetve végrehajtja a parancsát, és a szolga minden, a gazda által kijelentett állítást elhisz. Ezenkívül megállapítást tesz az aktuális szituációra (csak egyszer), ha nincs más tennivalója, és megtervezi saját akcióját, ha magára hagyják. Íme, egy tipikus párbeszéd:

`ROBOTSZOLGA`	`GAZDA`
Szellőt érzek.	Menj 1, 2-re!
Semmi sincs itt.	Menj északnak!
Szellőt és bűzt érzek, valamint csillogást látok.	Ragadd meg az aranyat!

22.2. ábra - Egy kommunikáló ágens, amely elfogad parancsokat, kérdéseket és állításokat. Az ágens leírhatja az aktuális állapotot, valamint végrehajthat „hagyományos”, nem szólásaktus cselekvést is, ha nincs mit mondania.

Egy kommunikáló ágens, amely elfogad parancsokat, kérdéseket és állításokat. Az ágens leírhatja az aktuális állapotot, valamint végrehajthat „hagyományos”, nem szólásaktus cselekvést is, ha nincs mit mondania.

^[220] A fejezetben hozott példák fordításakor a következőképpen jártunk el: az olyan angol kifejezéseket, amelyek magyarul is szemléletesek az adott mondanivaló szempontjából, magyar fordításban adjuk meg. A kifejezések és részletesebb példák többségénél ez nem követhető, mivel a szerző az angol nyelv sajátosságaihoz illeszti a fejezet ismeretanyagának és példáinak megfogalmazását, így a fordítás lényegi változást hozott volna a fejezet tartalmában is. Ezeken a részeken a magyar változatban is meghagyjuk az eredeti angol kifejezéseket, szükség esetén rövid magyar fordításukkal kiegészítve. A szerzők létrehozzák az angol nyelv egy formális részhalmazát, amin bemutatják a fejezetben ismertetett módszerek alkalmazását. Ezt is változatlan formában helyezzük át a magyar nyelvű kiadásba. Ezen részek magyar fordítását sem készítjük el, mivel a fordítás a mondanivaló szempontjából lényegtelen. (A ford.)

^[221] A baseballpálya angol elnevezése diamond, mivel alakjával a gyémántra hasonlít. (A ford.)

Mesterséges Intelligencia Elektronikus Almanach

Elsődleges linkek

22.1. A kommunikáció mint cselekvés

22.1.1. A nyelv alapjai

Fontos

22.1.2. A kommunikációt alkotó lépések