24.2. Képalkotás

A látás egy jelenet (scene) objektumairól szóródó fényt összegyűjti, majd egy kétdimenziós képet (image) alkot egy képsíkon. A képsíkot fényérzékeny anyag borítja: a retinában rodopszinmolekulák, a negatív filmen ezüst-halogenidek, a digitális fényképezőgépben pedig egy töltéscsatolt eszköz (CCD) lapka. A CCD minden cellája öszszegyűjti a fényelnyelés által adott idő alatt keltett elektronokat. A digitális fényképezőgépben a képsík egy néhány millió képpontból (pixel) álló négyzethálóra van felosztva. A szem hasonló képpontráccsal rendelkezik, amely körülbelül 100 millió pálcikát és 5 millió csapot tartalmaz egy hexagonális mozaikba rendezve.

A jelenet nagyon nagy, és a képsík egészen kicsi, tehát lennie kell valamilyen módszernek a fény képsíkra fókuszálásához. Ezt megtehetjük lencsével vagy anélkül. Bárhogy is tesszük, a lényeg a geometria meghatározása, hogy megmondhassuk, a jelenet melyik pontja hova kerül a képsíkon.

24.2.1. Lencsék nélküli képek: a sötétkamra

24.1. ábra - A képalkotás geometriája a sötétkamrában
A képalkotás geometriája a sötétkamrában

A képalkotás legegyszerűbb eszköze a sötétkamra, amely egy doboz elején található kis lyukból (O) és a doboz hátsó részén levő képsíkból áll (lásd 24.1. ábra). Egy háromdimenziós koordináta-rendszert fogunk használni, amelynek az origója az O pont, a jelenet egy P pontját pedig az (X, Y, Z) koordinátákkal reprezentáljuk. A P pontot egy P' pontra képezzük le a képsíkon, amelynek koordinátái (X, Y, Z). Ha f az O pontszerű lyuknak a képsíktól vett távolsága, akkor a hasonló háromszögek alapján az alábbi egyenleteket tudjuk levezetni:

Ezek az egyenletek egy perspektivikus vetítés (perspective projection) néven ismert képalkotási eljárást definiálnak. Vegyük észre, hogy a Z az osztóban azt jelenti, hogy minél távolabb van az objektum, annál kisebb lesz a képe. Valamint azt is figyeljük meg, hogy a kép, mind a bal–jobb, mind a fel–le irányban fordított a jelenethez képest, amit az egyenletekben a negatív előjel jelez.

A perspektivikus vetítésben a párhuzamos vonalak a horizontvonalon lévő pontban futnak össze. Nézzük meg, miért szükségszerű ez! Az (X0, Y0, Z0) ponton keresztül (U, V, W) irányban áthaladó egyenes leírható, mint az (X0 + λU, Y0 + λV, Z0 + λW) pontok halmaza, ahol λ a +∞ és –∞ között változik. Ezen egyenes egy Pλ pontjának képsíkra vett vetületét az:

adja. Amint λ → ∞ vagy λ → –∞ ez a pont a p = (fU/W, fV/W) lesz, ha W ≠ 0. A p pontot az (U, V, W) irányú egyenesek családjával kapcsolatos távlatpontnak (vanishing point) nevezzük. Az azonos irányú egyenesek távlatpontja azonos.

Ha a tárgy a kamrától vett távolságához képest viszonylag lapos, a perspektivikus vetítést a skálázott ortografikus vetítéssel (scaled orthographic projection) közelíthetjük. Ennek elve a következő. Ha a tárgy pontjainak Z mélysége egy bizonyos Z0 ± ∆Z tartományban változik, és ∆Z = Z0, akkor a perspektíva f/Z skála tényezőjét az s = f/Z0 állandóval lehet közelíteni. Az (X, Y, Z) jelenet koordinátákból a képsíkra történő vetítés egyenletei az x = sX és az y = sY lesznek. Jegyezzük meg, hogy a skálázott függőleges síkú vetítés egy közelítés, amely a jelenet azon részeire érvényes, amelyeknek a saját mélységváltozásuk elenyésző. A globális tulajdonságok tanulmányozására ezt a módszert nem szabad használni. Hogy az óvatosság nem árt, erre egy példa: függőleges síkú vetítésben a párhuzamos vonalak párhuzamosak maradnak ahelyett, hogy egy távlatpontban összefutnának.

24.2.2. Lencserendszerek

A gerincesek szeme és a modern kamerák is lencséket használnak. A lencse a sötétkamra nyílásánál nagyobb, így több fényt enged át. Ennek az az ára, hogy egyidejűleg a jelenet minden részének az élességét nem lehet biztosítani. A jelenet egy Z távolságban lévő pontjának a képe a lencsétől egy rögzített Z' távolságban keletkezik, és a Z és a Z' között az:

reláció áll fenn, ahol f a lencse fókusztávolsága. Ha a lencse optikai középpontja és a képsík közötti távolságot valamilyen Z'0-nak választjuk, a jelenet azon tárgyai, amelyek a Z0 körül egy adott mélységtartományban fekszenek, ahol Z0 a megfelelő tárgytávolság, nagyjából élesen fognak látszani. A jelenet ezen mélységi tartományát mélységélességnek (depth of field) nevezzük.

Jegyezzük meg, hogy mivel a Z tárgytávolság általában sokkal nagyobb, mint a Z' képtávolság vagy mint az f, sokszor jogos az alábbi közelítés:

Azaz a képtávolság Z' f. A sötétkamra vetítésegyenleteit tehát egy lencse által létrehozott kép geometriájának leírásához is használhatjuk.

Ahhoz, hogy a különböző Z távolságban lévő tárgyakat élesen lássuk, az emberi szem lencséje (lásd 24.2. ábra) változtatja az alakját, a kamera lencséje pedig Z irányban elmozdul.

24.2. ábra - Az emberi szem vízszintes keresztmetszete
Az emberi szem vízszintes keresztmetszete

24.2.3. A fény: a képalkotás fotometriája

A fény nélkülözhetetlen a látáshoz: nélküle minden kép egyformán sötét lenne, függetlenül attól, mennyire érdekes a jelenet. A fotometria (photometry) a fény tanulmányozása. Saját céljainkra azt fogjuk modellezni, hogy a jelenet fénye hogyan képződik le az időben a képsík fényintenzitására, amit I(x, y)-nal[270] jelölünk. A látás rendszere ezt a modellt visszafelé alkalmazza, a képek intenzitásából kiindulva a világ tulajdonságai felé. A 24.3. ábra egy asztalon lévő tűzőgép digitalizált képét és a tűzőgép egy 12 × 12 képpontból álló részletét mutatja. Egy számítógépes program, amely értelmezni próbálja a képet, egy ilyen intenzitásmátrixból indulna ki.

24.3. ábra - (a) Egy asztalon lévő tűzőgép fényképe. (b) Az (a) egy 12 × 12 képpontból álló, nagyított részlete. (c) A részletnek megfelelő képfényességértékek egy 0-tól 255-ig tartó skálán.
(a) Egy asztalon lévő tűzőgép fényképe. (b) Az (a) egy 12 × 12 képpontból álló, nagyított részlete. (c) A részletnek megfelelő képfényességértékek egy 0-tól 255-ig tartó skálán.

A kép egy képpontjának a fényessége arányos a jelenet képpontba vetített felületeleme által a kamera felé irányított fény mennyiségével. Ez viszont függ a felületelem fényvisszaverő tulajdonságaitól és a fényforrások elhelyezésétől, valamint eloszlásától a jelenetben. Egy képpont fényességébe a jelenet egyéb részeinek fényvisszaverő tulajdonságai is beleszólnak, hiszen a jelenet más felületei indirekt fényforrásként szolgálnak, mivel a rájuk eső fényt az adott felületelem felé verik vissza.

Kétféle visszaverődést modellezhetünk. A tükröző visszaverődés (specular reflection) azt jelenti, hogy a fény a tárgy külső felületéről verődik vissza, és teljesíti azt a kényszert, miszerint a beesés és a visszaverődés szöge megegyezik. Ilyen a tökéletes tükör viselkedése. A diffúz visszaverődés (diffuse reflection) azt jelenti, hogy a fény a tárgy felszínén belülre hatol, a tárgy a fényt elnyeli és ismételten kisugározza. A tökéletesen diffúz (avagy Lambert-féle) felület minden irányban azonos intenzitással szórja a fényt. Az intenzitás egyedül a fényforrástól érkező fény beesési szögétől függ: a felületre pontosan merőleges fényforrás esetén lesz a legnagyobb intenzitású a reflexió, míg majdnem párhuzamos fényforrás esetén a legkisebb. E két véglet között a viszszaverődést Lambert koszinusztörvénye írja le:

I = kI0cosθ

ahol s a fényforrás intenzitása, a felület normálisa és a fény beesési iránya közötti szög, k a visszaverődési tényező értéke, amely a felület visszaverési képességeitől függ, és 0-tól (tökéletesen fekete felület) 1-ig (tökéletesen fehér felület) változik.

A valódi életben a felületek kevert, diffúz és tükrös tulajdonságúak. Számítógépes modellezésük a számítógépes grafika fő alkalmazási területe. A valósághű képek előállítása általában fénysugár-követési eljárással történik, amely szimulálja azt a fizikai folyamatot, ahogy a fénysugár a forrásnál keletkezik, és a tárgyakról többszörösen visszaverődik.

24.2.4. Színek: a képalkotás spektrális fotometriája

A 24.3. ábrán egy fekete-fehér képet mutattunk, nagyban figyelmen kívül hagyva azt a tényt, hogy a látható fény a hullámhosszak egész tartományát öleli át – a 400 nm-től kezdve a spektrum ibolyaszínű végénél, egészen a 700 nm-ig a vörös színű végénél. Bizonyos fény csak egyetlen hullámhosszból áll, amely a szivárvány egy színének felel meg. De más fények különböző hullámhosszok keverékei. Azt jelenti ez, hogy az I(x, y) mértékére egyetlen szám helyett az értékek egy keveréke kell? Ha a fény fizikáját pontosan akarnánk reprezentálni, akkor bizony igen. De ha csak utánozni akarjuk az emberek (és más gerincesek) fényérzékelését, akkor köthetünk kompromisszumokat. Kísérletek mutatják (egészen 1801-től, Thomas Youngtól), hogy hullámhosszak bármilyen komplex keverékét is előállíthatjuk mindössze három szín keverésével. Azaz, ha van egy fénygenerátor, amely képes lineárisan kombinálni három hullámhosszt (tipikusan a vörös [700 nm], a zöld [546 nm] és a kék [436 nm] színeket választjuk), akkor az egyes színeket erősítő, másokat gyengítő gombok csavargatásával bármilyen hullámhossz-kombináció beállítható, legalábbis az emberi érzékelés szempontjából. Ez a kísérleti tény azt jelenti, hogy a képek egy olyan vektorral reprezentálhatók, amely képpontokként csak három intenzitásértéket tárol: minden elsődleges hullámhosszra egyet. A gyakorlatban mindegyiket egy bájttal ábrázolva a kép igen jó minőségű reprodukcióját kapjuk. A színek ezen háromszínű észlelése azzal a ténnyel van összefüggésben, hogy háromféle csap található a retinában, amelyek érzékelési maximuma 650, 530 és 430 nm, de az összefüggés pontos részletei az egy az egyben történő leképezésnél bonyolultabbak.



[270] Ha az időbeli változást is vizsgáljuk, akkor az I(x, y, t) jelölést alkalmazzuk.