24.1. Bevezetés

Egy mesterséges ágens több észlelési modalitással is rendelkezhet. Amin az ágensek és az emberek is osztoznak, az többek között a látás, a hallás és a tapintás. A hallással a beszédfelismerés témán belül, a 15.6. alfejezetben foglalkozunk. A tapintás, másképpen a taktilis érzékelés (tactile sensing) a 25. fejezet témája, ahol a kézi műveleteket végző ágenseknél vizsgáljuk meg ennek a használatát, a fejezet hátralevő része pedig a látással foglalkozik. Egyes robotok aktív érzékelést (active sensing) végeznek, azaz kiküldenek egy jelet, mint például radar- vagy ultrahangjelet, és ennek a jelnek a környezetből érkező visszaverődését vizsgálják.

Egy ágens kétféle módon használhatja az érzékeléseit. A tulajdonság kinyerési (feature extraction) megközelítés szerint az ágens néhány kevés számú tulajdonságot észlel az érzékelő bemenetein, és ezeket továbbítja az ágensprogramnak, amely a tulajdonságoknak megfelelően reagál, vagy kombinálja őket más információkkal. A wumpus ágens ily módon működött, öt érzékelővel, amelyek mindegyike egybites információt nyert ki. Ma már ismert, hogy egy légy az optikai bemenetről tulajdonságokat nyer ki, és ezeket direkt módon a kanyarodásban segítő izmokhoz továbbítja, lehetővé téve, hogy 30 milliszekundumon belül reagáljon, és irányt váltson.

Az alternatív lehetőség a modellalapú (model-based) megközelítés, ahol a szenzoros bemenet alapján a világ egy modellje épül fel. E megközelítés szerint egy f függvényből indulunk ki, amely a világ W állapotát az általa keltett S ingerületre képezi le:

S = f (W)

Az f függvényt a fizika és az optika határozza meg, és viszonylag jól ismerjük. S és egy valós vagy elképzelt W világ előállítása f-ből a számítógépes grafika (computer graphics) által kezelt probléma. A számítógépes látás bizonyos értelemben a számítógépes grafika fordítottja, ha adott f és S, akkor W-t próbáljuk kiszámítani:

W = f –1(S)

Sajnos az f-nek nincs jól definiált inverze. Nem láthatunk a sarkon túlra, így a világ aktuális állapotának minden aspektusát az ingerületből visszaállítani nem tudjuk. Sőt az a része, amit láthatunk, nagyban bizonytalan: kiegészítő információ nélkül nem tudjuk megmondani, hogy S egy játék Godzilla-képe, amint egy hatvan centiméteres modellépületet tarol le, vagy egy valóságos szörnyeteg, amely egy hatvanméteres épületet pusztít el. Ezen problémák egy részét kezelhetjük úgy, hogy egy világ megtalálása helyett világok valószínűségi eloszlását határozzuk meg:

P(W) = P(W|S)P(S)

Az ilyen modellezés legfontosabb hátránya az, hogy túl nehéz problémát kísérel meg megoldani. Gondoljunk bele, hogy a számítógépes grafikában többórányi számításra lehet szükség egy film egyetlen kockájának az előállításához, amiből 24 kocka kell másodpercenként, és f –1 kiszámítása sokkal bonyolultabb, mint f-é. Világos, hogy ez túl sok számítás egy szuperszámítógép számára, hogy valós időben reagáljon, nem is beszélve egy légyről. Szerencsére az ágensnek nem kell a fényképhű számítógépes grafikához hasonló szintű modellel rendelkeznie a világról. Az ágensnek elegendő azt tudnia, hogy rejtőzködik-e egy tigris a bozótban, és nem kell tudnia a tigris hátán levő minden egyes szőrszál pontos elhelyezkedését és irányát.

A fejezet nagy részében azt fogjuk látni, hogy hogyan kell objektumokat – például tigriseket – felismerni, továbbá olyan módszereket, amelyek ezt a tigris minden egyes részletének reprezentálása nélkül teszik. A 24.2. alfejezetben a képalakítás folyamatát tanulmányozzuk majd, definiálva az f(W) függvény egyes aspektusait. Először a folyamat geometriájára tekintünk. Látni fogjuk, hogy a fény a világ objektumairól az ágens érzékelőjének képsíkján lévő pontokra verődik vissza. Ez a geometria magyarázza meg, hogy egy nagy Godzilla a távolban miért néz ki úgy, mint egy kis Godzilla a közelben. Ezután a folyamat fotometriáját vizsgáljuk, amely leírja, hogy a táj fénye hogyan határozza meg a kép pontjainak fényességét. A geometria és a fotometria együtt egy olyan modellt nyújtanak, amely leírja, hogy a világ objektumai hogyan képződnek le a képpontok kétdimenziós tömbjére.

Annak megértése után, hogy hogyan jönnek létre a képek, megvizsgáljuk, hogy hogyan dolgozzuk fel őket. A vizuális feldolgozás folyamata az emberekben és a számítógépekben is három részre bontható. Először, avagy az alacsony szintű látás során (24.3. alfejezet), a feldolgozatlan képet simítjuk, hogy kiszűrjük a zajt, majd a kétdimenziós kép tulajdonságait kinyerjük, elsősorban a kép régiói közötti éleket. A középső szintű látásban ezeket összekapcsolva régiókat hozunk létre. A magas szintű látásban (24.4. alfejezet) a kétdimenziós régiókat mint a világ valóságos objektumait ismerjük fel (24.5. alfejezet). A képekben megtalálható olyan speciális információkat tanulmányozunk, amelyeket erre a célra felhasználhatunk, mint például a mozgást, a térbeli információt,a textúrát, az árnyalást és a kontúrokat. Az objektumfelismerés fontos a vadonban levő ágens számára, hogy észlelje a tigriseket, és fontos az ipari robotok számára, hogy megkülönböztesse az anyákat a csavaroktól. Végezetül a 24.6. alfejezet megmutatja, hogy az objektumok felismerése hogyan segíthet nekünk olyan hasznos feladatokban, mint például a manipulálás vagy a navigáció. A manipulálás azt jelenti, hogy megragadhatunk és használhatunk szerszámokat, illetve más tárgyakat, a navigáció pedig azt, hogy egyik helyről átmehetünk egy másikra anélkül, hogy nekimennénk valaminek. Ezeket a feladatokat észben tartva biztosíthatjuk, hogy egy ágens csak akkora modellt építsen, amire céljai eléréséhez szüksége van.