13.3. Kilógó adatok

A hiányzó adatok mellett igen sok problémát okoznak a zajok vagy a mérési hibák miatt fellépő, a valós adatoktól erősen eltérő, úgynevezett kilógó adatok (outliers) is. Ebben az alfejezetben alapvetően az adatok minősítésével foglalkozunk; hogyan lehet felismerni, modellezni, hogy az adathalmazból melyeket tekintsünk kilógóknak, melyek tekinthetők "csupán" a szokásos módon zajosnak. A következő alfejezetben ismertetett, hiányzó adatok pótlására szolgáló eljárások alkalmasak lehetnek arra, hogy javítsuk az adatbázisunkat. A detektált kilógó adatokat ugyanis egyszerűen úgy tekinthetjük, hogy ezekben a pontokban hiányzik a releváns információ.

Kézi adatrögzítés esetén tipikus "mérési hiba" az adatrögzítés hibája, pl. rossz helyre tett tizedesvessző. A hatásuk több szempontból is káros. Egyrészt a tanítás folyamatában az impulzuszajoknál (lásd 13.1.1) ismertetett eredményre vezethetnek (a modellben általában nem impulzusszerű, de egy tágabb környezetben elkent torzítást okozhatnak). Másrészt tönkretehetik az előfeldolgozásnál nagyon gyakran alkalmazott és rendkívül hasznos normalizálási lépést. Az 13.6 ábrán egy zajmentes, [-1,1] tartományra normált szinuszjel és hisztogramja látható.

13.6. ábra - Egy [-1,1]-re normalizált szinuszjel, és hisztogramja
Egy [-1,1]-re normalizált szinuszjel, és hisztogramja

A következő ábra azt mutatja, hogy ha valamilyen okból a jel egyetlen pontjában egy erősen hibás (kilógó) értéket mérünk, akkor az a normalizáláskor összenyomja a hasznos jeltartományt. Ha ezzel a normalizált paraméterrel tanítunk egy hálót, akkor azt "sugalljuk", hogy lényegében +1 és -1 értékek fordulnak elő ezen a bemenetén (a +1-es érték csak egyszer, a -1 körüli értékek sokszor), mintha bináris jelünk lenne. Természetesen a háló képes lehet ezt kiküszöbölni, de minden "félrevezetés" rontja a megoldás minőségét és a tanulás konvergencia sebességét.

13.7. ábra - Egyetlen kilógó értékkel terhelt szinuszjel [-1,1]-re normalizálva, és a normált jel hisztogramja
Egyetlen kilógó értékkel terhelt szinuszjel [-1,1]-re normalizálva, és a normált jel hisztogramja

13.3.1. Kilógó értékek modellezése klaszterezéssel, az EM algoritmus

A kilógó értékek káros hatását csökkentő eljárások alapvető problémája, hogy honnan vesszük észre egy adatról, hogy az alapvetően használt jelmodellünknek megfelel-e, ami lehet valamilyen szokásos mértékben zaj által torzított adat, vagy valamilyen rendkívüli, nagymértékű torzítás történt.

Az egyik lehetőség az adatok nemellenőrzött tanítással történő osztályozása, klaszterezése. (Ellenőrzött tanítás nem jöhet szóba, hiszen nem tudjuk az egyes adatokról, hogy melyik csoportba tartoznak.)

Feltételezhetjük, hogy ha a torzítás nagymértékű, akkor az adatok osztályozása során a kilógó adatok a tipikusaktól eltérő klaszterbe kerülnek. Elvileg nincs más dolgunk, mint klaszterezni és eldönteni, hogy melyik klaszter tartalmazza a normál és melyik vagy melyek a kilógó adatokat. Általában azzal az egyszerű feltételezéssel élünk, hogy a normál adatok vannak többségben, és a nagy elemszámú csoportokat (klasztereket) normálként kezeljük. Ugyanakkor a helyzet különösen problematikus akkor, ha nagyon összetett (sokdimenziós) adatokat használunk, és a kilógó adat sokféleképpen jöhet létre. A következő ábrán demonstráljuk a problémát egy kétváltozós adathalmazon.

Látható, hogy ha a kétváltozós adathalmazunk mindkét paraméterére egyszerre hat a nagymértékű torzítás, amely kilógó adatokat eredményez, akkor két klaszter jött létre: egy a normál adatokból és egy a kilógókból. Amennyiben a torzítás hol ezt, hol azt a paramétert éri (pl. hol az egyik, hol a másik adatot regisztrálják hibásan), akkor 3 klaszter alakul ki. Ez azért fontos kérdés, mert a klaszterezési eljárásaink nagy része kötött, előre rögzített számú klaszter esetén működik jól. Ha felülbecsüljük a klaszterek számát, és pl. a 13.8 (a) ábrában 3 klasztert keresünk, akkor fennáll a veszély, hogy a normál adatok egy részét is leválasztjuk és kilógónak tekintjük. Ha viszont alulbecsüljük a klaszterek számát, pl. a 13.8 (b) ábrában 2 klasztert keresünk, akkor jó eséllyel az egyik kilógó csoportot normálnak fogjuk tekinteni.

13.8. ábra - A kilógó adatokat mindkét paraméterre egyszerre (a), illetve külön-külön ható (b) torzítás hozta létre (mindkét ábrán a vízszintes tengelyen az egyik, a függőleges tengelyen a másik paraméter értéke látható)
A kilógó adatokat mindkét paraméterre egyszerre (a), illetve külön-külön ható (b) torzítás hozta létre (mindkét ábrán a vízszintes tengelyen az egyik, a függőleges tengelyen a másik paraméter értéke látható)

A feladatunk tehát abban áll, hogy önszerveződő osztályozással, klaszterezéssel eltérő paramétereloszlású csoportokat keresünk, és ennek alapján döntjük el, hogy melyik adat kilógó és melyik normál adat.

Az EM-algoritmus

Az EM-algoritmust (expectation-maximization algorithm) először általánosságban tárgyaljuk, majd konkretizáljuk egy olyan feladatra, amely kevert minták szétválasztását célozza[9].

Általánosságban az EM-algoritmust olyan feladatok megoldására fejlesztették ki, amelyekben ismeretlen, de konkrét, elvileg rögzített paraméterek becslését szeretnénk meghatározni valamilyen adathalmaz alapján úgy, hogy bizonyos adatelemeket nem ismerünk (pl. nem tudjuk ezeket mérni), csak valószínűség-eloszlásukról van információnk [Dem77], [Mit97].

Az EM-algoritmus szemléltetésére több példa is felhozható. Első példánk legyen a következő: meg akarjuk becsülni egy sokdimenziós adathalmaz átlagát úgy, hogy az adataink hiányosak, bizonyos adatvektorok egy vagy több komponense hiányzik. (Pl. egy – valamilyen elektromos vagy elektronikus berendezésekből álló – termékhalmazon mérték a termék áramfelvételét, két meghibásodás közötti időt stb., de néhány terméknél egyik-másik adat hiányzik, elveszett stb.) Egy másik lehetséges példa, amelyet későbbiekben részletesebben is tárgyalunk a következő: van egy adatsorunk, melyben az adatok több eloszlásból származhatnak. Az adatok alapján szeretnénk megbecsülni az egyes eloszlások várható értékét, de anélkül, hogy tudnánk, hogy az egyes adatok melyik eloszlásból származnak. Egy hétköznapi példaként gondoljunk arra, hogy az amerikaiak magasság, vérnyomás stb. adatai alapján azt szeretnénk megmondani, hogy az amerikaiakon belül az egyes népcsoportok (fehér, néger, mexikói, ázsiai) átlagmagassága, vérnyomásának átlaga és szórása stb. mekkora. Mindezt azonban úgy szeretnénk meghatározni, hogy az egyes méréseknél nem lett feljegyezve, hogy ki melyik népcsoportba tartozik. Van tehát egy olyan adathalmazunk, mely pl. a magasságértékeket tartalmazza, de az egyes értékek mellett nincs meg az az információ, hogy melyik magasságérték melyik népcsoportba tartozó ember magassága, vagyis hiányos adatokkal van dolgunk. Itt az ismeretlen paraméter, a hiányzó adat az, hogy melyik adat melyik csoportból származik, a keresett paramétervektor pedig a csoportok átlagos magasságából képzett vektor. (Természetesen ennek a demográfiai illetve népegészségügyi példának számos műszaki analógiáját lehet találni, de ez talán egy könnyen érthető példa.)

Az EM-algoritmust általános formájában a következőképpen szokták megfogalmazni (pl. [Mit97]). Egy valószínűség eloszlás valamilyen θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ paramétervektorát akarjuk becsülni csupán részlegesen megfigyelhető adatok alapján. Legyen X={x1, x2, …, xL} a megfigyelt adatkomponensek halmaza és Z={z1, z2, …, zL} azon adatkomponensek halmaza, amelyeket nem tudtunk megfigyelni. Tehát az Y=XZ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamywaiabg2da9iaadIfacqGHQicYcaWGAbaaaa@3AA9@ lenne a teljes adathalmaz, és ha mind X, mind Z ismert volna a feladatot könnyen meg lehetne oldani. Minthogy Z-t nem ismerjük, ezt hiányzó ismeretnek nevezzük. A nem ismert Z komponenseket valószínűségi változóként kezelhetjük, amelyek eloszlása az ismeretlen θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ paramétervektortól függ. Hasonlóképpen Y is valószínűségi változó, hiszen X és Z segítségével definiáltuk. A Z hiányzó adatokat jellemző valószínűség eloszlás függ a keresett paramétertől. Ha ismernénk Z valószínűség eloszlását, akkor az X megfigyelt adatok alapján a θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ paramétervektor becslését meg tudnánk határozni. Ugyanis a θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ paramétervektor becsléséhez Z teljes ismerete nem szükséges Z várható értéke alapján a becslés meghatározható (Meg tudnánk fogalmazni egy maximum likelihood becslési feladatot, melynek megoldásaként θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ olyan becslését határozhatnánk meg, mely mellett a megfigyléseink a legnagyobb valószínűségűek.) A θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ becslés segítségével a hiányzó adatok valószínűség eloszlását pontosabban meg tudjuk adni, ami (a maximum likelihood becslésen keresztül) a θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ paraméter jobb becslését eredményezi. Az eljárást folytatva a paramétervektor egyre jobb becslését kapjuk. Megfelelő feltételek mellett ez az iteratív eljárás konvergens és a θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ becslések sorozata a valódi θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ paraméterhez konvergál [Dem77].

Általánosabban az eljárást a következőképpen fogalmazhatjuk meg. Van egy kiinduló hipozézisünk az ismeretlen paraméterről. Jelöljük ezt h-val. A h aktuális hipotézis megad egy aktuálisan igaznak tartott paramétervektort. Egy iteráció során egy új hipotézist, h’-t állítunk fel, mely a paramétervektor egy jobb becslését adja. Olyan új hipotézist keresünk, mely mellett a (teljes) megfigyeléseinkre vonatkozó P( Y| h ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiuamaabmaabaGaamywamaaeeaabaGabmiAayaafaaacaGLhWoaaiaawIcacaGLPaaaaaa@3B32@ feltételes sűrűségfüggvény maximumát a tényleges adatainknál veszi fel. Ez egy maximum likelihood becslési feladat lenne, ahol a feltételes sűrűségfüggvény a likelihood függvény. Azonban mivel az Y teljes adathalmazt nem ismerjük, a P( Y| h ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiuamaabmaabaGaamywamaaeeaabaGabmiAayaafaaacaGLhWoaaiaawIcacaGLPaaaaaa@3B32@ likelihood függvény maximumát biztosító hipotézist sem tudjuk meghatározni. Meghatározhatjuk azonban a P( Y| h ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiuamaabmaabaGaamywamaaeeaabaGabmiAayaafaaacaGLhWoaaiaawIcacaGLPaaaaaa@3B32@ likelihood függvény várhatóértékét E{ P( Y| h ) } MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyramaacmaabaGaamiuamaabmaabaGaamywamaaeeaabaGabmiAayaafaaacaGLhWoaaiaawIcacaGLPaaaaiaawUhacaGL9baaaaa@3E2D@ -t, és a várhatóérték alapján fogalmazhatunk meg egy maximum likelihood becslési feladatot. Az E{ P( Y| h ) } MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyramaacmaabaGaamiuamaabmaabaGaamywamaaeeaabaGabmiAayaafaaacaGLhWoaaiaawIcacaGLPaaaaiaawUhacaGL9baaaaa@3E2D@ meghatározásához az Y teljes adatok ismeretére nincs szükségünk, elegendő, ha Y eloszlása ismert, ami azt jelenti, hogy a hiányzó adatok ismerete nélkül, de a hiányzó adatok eloszásának ismeretében a várhatóérték likelihood függvény megfogalmazható. A várhatóértéket az Y-t generáló valószínűségi eloszlás felett képezzük, amelyet viszont a θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ paramétervektor határoz meg. Az aktuális hipoztézis (az ehhez tartozó aktuális paraméterbecslés) alapján meghatározható a várhatóérték likelihood függvény, E{ P( Y| h ) } MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyramaacmaabaGaamiuamaabmaabaGaamywamaaeeaabaGabmiAayaafaaacaGLhWoaaiaawIcacaGLPaaaaiaawUhacaGL9baaaaa@3E2D@ , majd az ennek maximumát biztosító új hipotézis. (Legtöbbször praktikus okokból e helyett az E{ log( P( Y| h ) ) } MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyramaacmaabaGaaeiBaiaab+gacaqGNbWaaeWaaeaacaWGqbWaaeWaaeaacaWGzbWaaqqaaeaaceWGObGbauaaaiaawEa7aaGaayjkaiaawMcaaaGaayjkaiaawMcaaaGaay5Eaiaaw2haaaaa@4281@ -t maximáljuk, de ez a lényegen nem változtat, a két kifejezés maximuma egybeesik.)

Definiáljunk egy Q( h |h ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyuamaabmaabaGabmiAayaafaWaaqqaaeaacaWGObaacaGLhWoaaiaawIcacaGLPaaaaaa@3B42@ függvényt, ami E{ log( P( Y| h ) ) } MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyramaacmaabaGaaeiBaiaab+gacaqGNbWaaeWaaeaacaWGqbWaaeWaaeaacaWGzbWaaqqaaeaaceWGObGbauaaaiaawEa7aaGaayjkaiaawMcaaaGaayjkaiaawMcaaaGaay5Eaiaaw2haaaaa@4281@ -t mint h’ függvényét adja meg azzal a feltételezéssel, hogy az aktuális hipotézisünk, h szerint a paramétervektor értéke θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ , valamint, hogy az adataink megfigyelhető része X:

Q( h |h )=E{ P( Y| h ) |  h,X } MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyuamaabmaabaGabmiAayaafaWaaqqaaeaacaWGObaacaGLhWoaaiaawIcacaGLPaaacqGH9aqpcaWGfbWaaiWaaeaacaWGqbWaaeWaaeaacaWGzbWaaqqaaeaaceWGObGbauaaaiaawEa7aaGaayjkaiaawMcaaiaabccadaabbaqaaiaabccacaWGObGaaiilaiaadIfaaiaawEa7aaGaay5Eaiaaw2haaaaa@4A60@ (13.14)

Ezekután az EM-algoritmus az alábbi két lépést ismétli, amíg a konvergencia be nem következik:

E-lépés: várhatóérték-képzés (expectation). Meghatározzuk a Q( h |h ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyuamaabmaabaGabmiAayaafaWaaqqaaeaacaWGObaacaGLhWoaaiaawIcacaGLPaaaaaa@3B42@ függvényt a jelenlegi h hipotézis ( θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ paramétervektor) és a megfigyelt X adathalmaz alapján, az Y felett nyert valószínűségi eloszlás várható értékét képezve:

Q( h |h )E{ P( Y| h ) |  h,X } MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyuamaabmaabaGabmiAayaafaWaaqqaaeaacaWGObaacaGLhWoaaiaawIcacaGLPaaacqGHqgcRcaWGfbWaaiWaaeaacaWGqbWaaeWaaeaacaWGzbWaaqqaaeaaceWGObGbauaaaiaawEa7aaGaayjkaiaawMcaaiaabccadaabbaqaaiaabccacaWGObGaaiilaiaadIfaaiaawEa7aaGaay5Eaiaaw2haaaaa@4B43@ (13.15)

M-lépés: maximumkeresés (maximization). A h hipotézist javítjuk, megkeressük azt a h’-t (a paramétervektor θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabCiUdyaafaaaaa@36B9@ új becslését), amely maximálja az E-lépés során nyert Q-t:

h argmax h' Q( h |h ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiAaiabgcziSoaaxababaGaaeyyaiaabkhacaqGNbGaaeyBaiaabggacaqG4baaleaacaWGObGaai4jaaqabaGccaWGrbWaaeWaaeaaceWGObGbauaadaabbaqaaiaadIgaaiaawEa7aaGaayjkaiaawMcaaaaa@4585@ (13.16)

Az M-lépés után az új paramétervektorral újra meghatározzuk az Y feletti eloszlás (amely változott a paramétervektor változása miatt) várható értékét, majd újra maximáljuk a Q-t stb.

Az általános bemutatás után szemléltessük az EM-algoritmust a fent már említett, legismertebb alkalmazási példájával, a kevert eloszlások paraméterbecslésével. Tegyük fel, hogy L darab többdimenziós mintánk van X={x1, x2, …, xL}, amelyek K különböző eloszlásból származnak a következő módon. Először valamilyen valószínűséggel eldől, hogy melyik eloszlásból jön a következő minta (bár mi ezeket a valószínűségeket nem ismerjük). Azt az eseményt, hogy a k-dik eloszlásból származik a következő minta, jelölje ωk, ennek a priori bekövetkezési valószínűsége P(ωk). Ezt követően az adott, k-dik eloszlásra jellemző p( x| ω k , θ k ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiCamaabmaabaGaaCiEamaaeeaabaGaeqyYdC3aaSbaaSqaaiaadUgaaeqaaOGaaiilaiaahI7adaWgaaWcbaGaam4AaaqabaaakiaawEa7aaGaayjkaiaawMcaaaaa@4089@ valószínűségeloszlás alapján előáll az adott érték. A θ k MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdmaaBaaaleaacaWGRbaabeaaaaa@37C9@ k=1, 2, …, K ismeretlen paramétervektorok együtt adják az összetett eloszlás θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ ismeretlen eredő paramétervektorát, amely meghatározza a minták eredő eloszlását.

Egy adott − bár ismeretlen − paramétersor (paramétervektor) esetén a kevert eloszlást a következő összefüggés írja le:

p( x|θ )= k=1 K p( x| ω k , θ k )  P( ω k ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiCamaabmaabaWaaqGaaeaacaWH4baacaGLiWoacaWH4oaacaGLOaGaayzkaaGaeyypa0ZaaabCaeaacaWGWbWaaeWaaeaacaWH4bWaaqqaaeaacqaHjpWDdaWgaaWcbaGaam4AaaqabaGccaGGSaGaaCiUdmaaBaaaleaacaWGRbaabeaaaOGaay5bSdaacaGLOaGaayzkaaaaleaacaWGRbGaeyypa0JaaGymaaqaaiaadUeaa0GaeyyeIuoakiaabccacaWGqbWaaeWaaeaacqaHjpWDdaWgaaWcbaGaam4AaaqabaaakiaawIcacaGLPaaaaaa@53A9@ (13.17)

A rögzített, de ismeretlen θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ mellett a mért adathalmazunk valószínűségét a következő összefüggés, az úgynevezett likelihood függvény adja meg, ami nem más, mint az egyes értékek valószínűségeinek szorzata:

p( X|θ )= j=1 L p( x j |θ ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiCamaabmaabaGaamiwamaaeeaabaGaaCiUdaGaay5bSdaacaGLOaGaayzkaaGaeyypa0ZaaebCaeaacaWGWbWaaeWaaeaacaWH4bWaaSbaaSqaaiaadQgaaeqaaOWaaqqaaeaacaWH4oaacaGLhWoaaiaawIcacaGLPaaaaSqaaiaadQgacqGH9aqpcaaIXaaabaGaamitaaqdcqGHpis1aaaa@49D0@ (13.18)

A θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ ismeretlen paramétervektor maximum likelihood (ML) becsléseaz a θ ^ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabCiUdyaajaaaaa@36BD@ becslő, amely a p( X|θ ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiCamaabmaabaGaamiwamaaeeaabaGaaCiUdaGaay5bSdaacaGLOaGaayzkaaaaaa@3B9C@ -t maximálja.

θ ^ = argmax θ p( X|θ ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabCiUdyaajaGaeyypa0ZaaCbeaeaacaqGHbGaaeOCaiaabEgacaqGTbGaaeyyaiaabIhaaSqaaiaahI7aaeqaaOGaamiCamaabmaabaGaamiwamaaeeaabaGaaCiUdaGaay5bSdaacaGLOaGaayzkaaaaaa@450F@ (13.19)

Ez az összefüggés azt fejezi ki, hogy a ténylegesen mért adatsor a különböző θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ -k esetén különböző valószínűségű, és érthető módon azt a θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ -t választjuk ezek közül, amely mellett a mért adatsor a legvalószínűbb. Tegyük fel, hogy p( X|θ ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiCamaabmaabaGaamiwamaaeeaabaGaaCiUdaGaay5bSdaacaGLOaGaayzkaaaaaa@3B9C@ differenciálható θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ szerint, jelöljük a likelihood logaritmusát L MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqef00BU9gD5bxzGm0BYnxA2fgaiuaacaWFmbaaaa@3CAB@ -lel, a logaritmikus likelihood függvény θ i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdmaaBaaaleaacaWGPbaabeaaaaa@37C7@ szerinti gradiensét pedig θ i ( L ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaacceGae83bIe9aaSbaaSqaaiaahI7adaWgaaadbaGaamyAaaqabaaaleqaaOWaaeWaaeaaruqtV52B0LhCLbYqVj3CPzxyaGqbaiaa+XeaaiaawIcacaGLPaaaaaa@425D@ -lel, ekkor:

L= j=1 L log( p( x j |θ ) ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaqef00BU9gD5bxzGm0BYnxA2fgaiuaacaWFmbGaeyypa0ZaaabCaeaacaqGSbGaae4BaiaabEgadaqadaqaaiaadchadaqadaqaaiaahIhadaWgaaWcbaGaamOAaaqabaGcdaabbaqaaiaahI7aaiaawEa7aaGaayjkaiaawMcaaaGaayjkaiaawMcaaaWcbaGaamOAaiabg2da9iaaigdaaeaacaWGmbaaniabggHiLdaaaa@4F44@ (13.20)

és

θ i ( L )= j=1 L 1 p( x j |θ )   θ i [ k=1 K p( x j | ω k , θ k )P( ω k ) ] MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaacceGae83bIe9aaSbaaSqaaiaahI7adaWgaaadbaGaamyAaaqabaaaleqaaOWaaeWaaeaaruqtV52B0LhCLbYqVj3CPzxyaGqbaiaa+XeaaiaawIcacaGLPaaacqGH9aqpdaaeWbqaamaalaaabaGaaGymaaqaaiaadchadaqadaqaaiaahIhadaWgaaWcbaGaamOAaaqabaGcdaabbaqaaiaahI7aaiaawEa7aaGaayjkaiaawMcaaaaaaSqaaiaadQgacqGH9aqpcaaIXaaabaGaamitaaqdcqGHris5aOGaaeiiaiab=DGirpaaBaaaleaacaWH4oWaaSbaaWqaaiaadMgaaeqaaaWcbeaakmaadmaabaWaaabCaeaacaWGWbWaaeWaaeaacaWH4bWaaSbaaSqaaiaadQgaaeqaaOWaaqqaaeaacqaHjpWDdaWgaaWcbaGaam4AaaqabaGccaGGSaGaaCiUdmaaBaaaleaacaWGRbaabeaaaOGaay5bSdaacaGLOaGaayzkaaGaamiuamaabmaabaGaeqyYdC3aaSbaaSqaaiaadUgaaeqaaaGccaGLOaGaayzkaaaaleaacaWGRbGaeyypa0JaaGymaaqaaiaadUeaa0GaeyyeIuoaaOGaay5waiaaw2faaaaa@6F8E@ (13.21)

Tegyük fel, hogy az összes θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ és θ k MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdmaaBaaaleaacaWGRbaabeaaaaa@37C9@ paramétervektorok elemei függetlenek egymástól, amennyiben ik MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyAaiabgcMi5kaadUgaaaa@390E@ . Mivel P( ω i ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiuaiaacIcacqaHjpWDdaWgaaWcbaGaamyAaaqabaGccaGGPaaaaa@3A88@ nem függ θ i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdmaaBaaaleaacaWGPbaabeaaaaa@37C7@ -től:

θ i ( L )= j=1 L 1 p( x j |θ )   θ i p( x j | ω i , θ i )P( ω i )=                  j=1 L p( x j | ω i , θ i )P( ω i ) p( x j |θ )   1 p( x j | ω i , θ i ) θ   i p( x j | ω i , θ i ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGceaqabeaaiiqacqWFhis0daWgaaWcbaGaaCiUdmaaBaaameaacaWGPbaabeaaaSqabaGcdaqadaqaaerbn9MBVrxEWvgid9MCZLMDHbacfaGaa4htaaGaayjkaiaawMcaaiabg2da9maaqahabaWaaSaaaeaacaaIXaaabaGaamiCamaabmaabaGaaCiEamaaBaaaleaacaWGQbaabeaakmaaeeaabaGaaCiUdaGaay5bSdaacaGLOaGaayzkaaaaaaWcbaGaamOAaiabg2da9iaaigdaaeaacaWGmbaaniabggHiLdGccaqGGaGae83bIe9aaSbaaSqaaiaahI7adaWgaaadbaGaamyAaaqabaaaleqaaOGaamiCamaabmaabaGaaCiEamaaBaaaleaacaWGQbaabeaakmaaeeaabaGaeqyYdC3aaSbaaSqaaiaadMgaaeqaaOGaaiilaiaahI7adaWgaaWcbaGaamyAaaqabaaakiaawEa7aaGaayjkaiaawMcaaiaadcfadaqadaqaaiabeM8a3naaBaaaleaacaWGPbaabeaaaOGaayjkaiaawMcaaiabg2da9aqaaiaabccacaqGGaGaaeiiaiaabccacaqGGaGaaeiiaiaabccacaqGGaGaaeiiaiaabccacaqGGaGaaeiiaiaabccacaqGGaGaaeiiaiaabccadaaeWbqaamaalaaabaGaamiCamaabmaabaGaaCiEamaaBaaaleaacaWGQbaabeaakmaaeeaabaGaeqyYdC3aaSbaaSqaaiaadMgaaeqaaOGaaiilaiaahI7adaWgaaWcbaGaamyAaaqabaaakiaawEa7aaGaayjkaiaawMcaaiaadcfadaqadaqaaiabeM8a3naaBaaaleaacaWGPbaabeaaaOGaayjkaiaawMcaaaqaaiaadchadaqadaqaaiaahIhadaWgaaWcbaGaamOAaaqabaGcdaabbaqaaiaahI7aaiaawEa7aaGaayjkaiaawMcaaaaaaSqaaiaadQgacqGH9aqpcaaIXaaabaGaamitaaqdcqGHris5aOGaaeiiamaalaaabaGaaeymaaqaaiaadchadaqadaqaaiaahIhadaWgaaWcbaGaamOAaaqabaGcdaabbaqaaiabeM8a3naaBaaaleaacaWGPbaabeaakiaacYcacaWH4oWaaSbaaSqaaiaadMgaaeqaaaGccaGLhWoaaiaawIcacaGLPaaaaaGae83bIe9aaSbaaSqaaiaahI7acaqGGaWaaSbaaWqaaiaadMgaaeqaaaWcbeaakiaadchadaqadaqaaiaahIhadaWgaaWcbaGaamOAaaqabaGcdaabbaqaaiabeM8a3naaBaaaleaacaWGPbaabeaakiaacYcacaWH4oWaaSbaaSqaaiaadMgaaeqaaaGccaGLhWoaaiaawIcacaGLPaaaaaaa@B09A@ (13.22)

A kifejezést bővítettük p( x j | ω i , θ i ) p( x j | ω i , θ i ) =1 MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaaSaaaeaacaWGWbWaaeWaaeaacaWH4bWaaSbaaSqaaiaadQgaaeqaaOWaaqqaaeaacqaHjpWDdaWgaaWcbaGaamyAaaqabaGccaGGSaGaaCiUdmaaBaaaleaacaWGPbaabeaaaOGaay5bSdaacaGLOaGaayzkaaaabaGaamiCamaabmaabaGaaCiEamaaBaaaleaacaWGQbaabeaakmaaeeaabaGaeqyYdC3aaSbaaSqaaiaadMgaaeqaaOGaaiilaiaahI7adaWgaaWcbaGaamyAaaqabaaakiaawEa7aaGaayjkaiaawMcaaaaacqGH9aqpcaaIXaaaaa@4FBC@ - gyel. A Bayes tétel alapján a szumma utáni első tényező nem más, mint az ω i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqyYdC3aaSbaaSqaaiaadMgaaeqaaaaa@3850@ esemény a posteriori valószínűsége. Tehát

P( ω i | x j , θ i )= p( x j | ω i , θ i )P( ω i ) p( x j |θ ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiuamaabmaabaGaeqyYdC3aaSbaaSqaaiaadMgaaeqaaOWaaqqaaeaacaWH4bWaaSbaaSqaaiaadQgaaeqaaOGaaiilaiaahI7adaWgaaWcbaGaamyAaaqabaaakiaawEa7aaGaayjkaiaawMcaaiabg2da9maalaaabaGaamiCamaabmaabaGaaCiEamaaBaaaleaacaWGQbaabeaakmaaeeaabaGaeqyYdC3aaSbaaSqaaiaadMgaaeqaaOGaaiilaiaahI7adaWgaaWcbaGaamyAaaqabaaakiaawEa7aaGaayjkaiaawMcaaiaadcfadaqadaqaaiabeM8a3naaBaaaleaacaWGPbaabeaaaOGaayjkaiaawMcaaaqaaiaadchadaqadaqaaiaahIhadaWgaaWcbaGaamOAaaqabaGcdaabbaqaaiaahI7aaiaawEa7aaGaayjkaiaawMcaaaaaaaa@5BAC@ (13.23)

Ez annak valószínűségét adja meg, hogy a megfigyelt xj minta az i-edik eloszlásból származik adott θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ (és ezen belül θ i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdmaaBaaaleaacaWGPbaabeaaaaa@37C7@ ) mellett. Ezek után az (13.22) egyenlet a következő alakra hozható:

θ i ( L )= j=1 L P( ω i | x j , θ i )   θ i log( p( x j | ω i , θ i ) ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaacceGae83bIe9aaSbaaSqaaiaahI7adaWgaaadbaGaamyAaaqabaaaleqaaOWaaeWaaeaaruqtV52B0LhCLbYqVj3CPzxyaGqbaiaa+XeaaiaawIcacaGLPaaacqGH9aqpdaaeWbqaaiaadcfadaqadaqaaiabeM8a3naaBaaaleaacaWGPbaabeaakmaaeeaabaGaaCiEamaaBaaaleaacaWGQbaabeaakiaacYcacaWH4oWaaSbaaSqaaiaadMgaaeqaaaGccaGLhWoaaiaawIcacaGLPaaaaSqaaiaadQgacqGH9aqpcaaIXaaabaGaamitaaqdcqGHris5aOGaaeiiaiab=DGirpaaBaaaleaacaWH4oWaaSbaaWqaaiaadMgaaeqaaaWcbeaakiaabYgacaqGVbGaae4zamaabmaabaGaamiCamaabmaabaGaaCiEamaaBaaaleaacaWGQbaabeaakmaaeeaabaGaeqyYdC3aaSbaaSqaaiaadMgaaeqaaOGaaiilaiaahI7adaWgaaWcbaGaamyAaaqabaaakiaawEa7aaGaayjkaiaawMcaaaGaayjkaiaawMcaaaaa@6AA8@ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcaa@3568@ (13.24)

Mikor elérjük a maximumot, akkor a gradiens 0-vá válik, tehát az ML becslés ki kell elégítse a következő összefüggéseket:

j=1 L P( ω i | x j , θ ^ i )   θ i log( p( x j | ω i , θ ^ i ) )=0        i=1,...,K MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaaabCaeaacaWGqbWaaeWaaeaacqaHjpWDdaWgaaWcbaGaamyAaaqabaGcdaabbaqaaiaahIhadaWgaaWcbaGaamOAaaqabaGccaGGSaGabCiUdyaajaWaaSbaaSqaaiaadMgaaeqaaaGccaGLhWoaaiaawIcacaGLPaaaaSqaaiaadQgacqGH9aqpcaaIXaaabaGaamitaaqdcqGHris5aOGaaeiiaGGabiab=DGirpaaBaaaleaacaWH4oWaaSbaaWqaaiaadMgaaeqaaaWcbeaakiaabYgacaqGVbGaae4zamaabmaabaGaamiCamaabmaabaGaaCiEamaaBaaaleaacaWGQbaabeaakmaaeeaabaGaeqyYdC3aaSbaaSqaaiaadMgaaeqaaOGaaiilaiqahI7agaqcamaaBaaaleaacaWGPbaabeaaaOGaay5bSdaacaGLOaGaayzkaaaacaGLOaGaayzkaaGaeyypa0JaaCimaiaabccacaqGGaGaaeiiaiaabccacaqGGaGaaeiiaiaabccacaqGGaGaamyAaiabg2da9iaaigdacaGGSaGaaiOlaiaac6cacaGGUaGaaiilaiaadUeaaaa@6AA5@ (13.25)

Tehát ezen egyenletrendszer megoldásai között kell keressük az ML becslőt.

Ha tudnánk, hogy melyik minta melyik eloszlásból származik, akkor az ismeretlen paramétereket (pl. az eloszlások várható értékét, szórását stb.) viszonylag egyszerűen tudnánk becsülni. Ezek viszont a nem megfigyelt, nem megfigyelhető változók. Így viszont az alábbi nemlineáris egyenletrendszert kéne megoldanunk (amennyiben sem az a priori eloszlások, sem az egyes θ i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdmaaBaaaleaacaWGPbaabeaaaaa@37C7@ eloszlásparaméterek nem ismertek):

MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcaa@3568@ P ^ ( ω i )= 1 L j=1 L P ^ ( ω i | x j , θ ^ i ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabmiuayaajaWaaeWaaeaacqaHjpWDdaWgaaWcbaGaamyAaaqabaaakiaawIcacaGLPaaacqGH9aqpdaWcaaqaaiaaigdaaeaacaWGmbaaamaaqahabaGabmiuayaajaWaaeWaaeaacqaHjpWDdaWgaaWcbaGaamyAaaqabaGcdaabbaqaaiaahIhadaWgaaWcbaGaamOAaaqabaGccaGGSaGabCiUdyaajaWaaSbaaSqaaiaadMgaaeqaaaGccaGLhWoaaiaawIcacaGLPaaaaSqaaiaadQgacqGH9aqpcaaIXaaabaGaamitaaqdcqGHris5aaaa@4F6E@ (13.26)

P ^ ( ω i | x j , θ ^ i )= p( x j | ω i , θ ^ i ) P ^ ( ω i ) k=1 K p( x j | ω k ,θ k ) P ^ ( ω k ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabmiuayaajaWaaeWaaeaacqaHjpWDdaWgaaWcbaGaamyAaaqabaGcdaabbaqaaiaahIhadaWgaaWcbaGaamOAaaqabaGccaGGSaGabCiUdyaajaWaaSbaaSqaaiaadMgaaeqaaaGccaGLhWoaaiaawIcacaGLPaaacqGH9aqpdaWcaaqaaiaadchadaqadaqaaiaahIhadaWgaaWcbaGaamOAaaqabaGcdaabbaqaaiabeM8a3naaBaaaleaacaWGPbaabeaakiaacYcaceWH4oGbaKaadaWgaaWcbaGaamyAaaqabaaakiaawEa7aaGaayjkaiaawMcaaiqadcfagaqcamaabmaabaGaeqyYdC3aaSbaaSqaaiaadMgaaeqaaaGccaGLOaGaayzkaaaabaWaaabCaeaacaWGWbWaaeWaaeaacaWH4bWaaSbaaSqaaiaadQgaaeqaaOWaaqqaaeaacqaHjpWDdaWgaaWcbaGaam4AaaqabaGccaGGSaGaaCiUdaGaay5bSdWaaSbaaSqaaiaadUgaaeqaaaGccaGLOaGaayzkaaGabmiuayaajaWaaeWaaeaacqaHjpWDdaWgaaWcbaGaam4AaaqabaaakiaawIcacaGLPaaaaSqaaiaadUgacqGH9aqpcaaIXaaabaGaam4saaqdcqGHris5aaaaaaa@6BD9@ (13.27)

j=1 L P ^ ( ω i | x j , θ ^ i )   θ i log( p( x j | ω i , θ ^ i ) )=0    i=1,...,K MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaaabCaeaaceWGqbGbaKaadaqadaqaaiabeM8a3naaBaaaleaacaWGPbaabeaakmaaeeaabaGaaCiEamaaBaaaleaacaWGQbaabeaakiaacYcaceWH4oGbaKaadaWgaaWcbaGaamyAaaqabaaakiaawEa7aaGaayjkaiaawMcaaaWcbaGaamOAaiabg2da9iaaigdaaeaacaWGmbaaniabggHiLdGccaqGGaacceGae83bIe9aaSbaaSqaaiaahI7adaWgaaadbaGaamyAaaqabaaaleqaaOGaaeiBaiaab+gacaqGNbWaaeWaaeaacaWGWbWaaeWaaeaacaWH4bWaaSbaaSqaaiaadQgaaeqaaOWaaqqaaeaacqaHjpWDdaWgaaWcbaGaamyAaaqabaGccaGGSaGabCiUdyaajaWaaSbaaSqaaiaadMgaaeqaaaGccaGLhWoaaiaawIcacaGLPaaaaiaawIcacaGLPaaacqGH9aqpcaaIWaGaaeiiaiaabccacaqGGaGaaeiiaiaadMgacqGH9aqpcaaIXaGaaiilaiaac6cacaGGUaGaaiOlaiaacYcacaWGlbaaaa@682A@ (13.28)

Foglaljuk össze, hogy mit ismerünk, és mit kívánunk megbecsülni ebben az egyenletrendszerben. Két dolgot ismerünk:

- az X={x1, x2, …, xL} mintahalmazt,

az egyes eloszlások struktúráját (legtöbbször pl. azt tudjuk vagy fetételezzük, hogy normál eloszlásról van szó). Ezt fejezi ki az egyenletrendszerben a p( x j | ω i , θ ^ i ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiCamaabmaabaGaaCiEamaaBaaaleaacaWGQbaabeaakmaaeeaabaGaeqyYdC3aaSbaaSqaaiaadMgaaeqaaOGaaiilaiqahI7agaqcamaaBaaaleaacaWGPbaabeaaaOGaay5bSdaacaGLOaGaayzkaaaaaa@41BA@ szerepeltetése, amely θ i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdmaaBaaaleaacaWGPbaabeaaaaa@37C7@ paraméterekkel jellemezhető.

Nem ismerjük:

- az egyes eloszlások a priori valószínűségeit (ezért használunk az összefüggésekben P ^ ( ω i ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabmiuayaajaWaaeWaaeaacqaHjpWDdaWgaaWcbaGaamyAaaqabaaakiaawIcacaGLPaaaaaa@3AC8@ -t, ami a valószínűség becsült voltára utal),

- az egyes eloszlások paramétereit (erre utal a θ ^ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabCiUdyaajaaaaa@36BD@ használata),

nem tudjuk, hogy melyik minta melyik eloszlásból származik − ez tulajdonképpen az az adat, amit nem tudunk megfigyelni −, és természetesen nem ismerjük az a posteriori valószínűsége- ket sem ( P ^ ( ω i | x j , θ ^ i ) MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabmiuayaajaGaaeikaiabeM8a3naaBaaaleaacaWGPbaabeaakmaaeeaabaGaaCiEamaaBaaaleaacaWGQbaabeaakiaacYcaceWH4oGbaKaadaWgaaWcbaGaamyAaaqabaaakiaawEa7aiaabMcaaaa@4178@ ).

Az egyenletrendszer gyakran nem oldható meg vagy a megoldás nagyon nagy számításigényű. Ennek megfelelően az EM-algoritmus iteratív megoldást kínál, a következő két lépés ismételt alkalmazásával. Első lépésben a (13.26) és a (13.27) összefüggések alapján, a pillanatnyilag használt θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ segítségével kiszámítjuk az a posteriori valószínűség eloszlást, és a várható értékét képezzük − E{ P ^ ( ω i | x j , θ ^ i ) } MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyramaacmaabaGabmiuayaajaWaaeWaaeaacqaHjpWDdaWgaaWcbaGaamyAaaqabaGcdaabbaqaaiaahIhadaWgaaWcbaGaamOAaaqabaGccaGGSaGabCiUdyaajaWaaSbaaSqaaiaadMgaaeqaaaGccaGLhWoaaiaawIcacaGLPaaaaiaawUhacaGL9baaaaa@44A5@ (expectation-lépés). Ezek után az így kiszámított várható értékeket írjuk be a (13.28) logaritmikus likelihood egyenletbe, és megkeressük azt az új θ MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaCiUdaaa@36AD@ értéket, amely maximálja a logaritmikus likelihood-ot (maximization-lépés). Ezt a két lépést ciklikusan valamilyen kezdeti értékekből kiindulva, valamilyen leállási feltétel eléréséig folytatjuk. A kezdetiérték választás, a konvergencia, a leállási feltételek kérdéseinek tárgyalása meghaladják a jelen könyv kereteit.

A legtöbbször vizsgált eset, amikor az egyes részeloszlások Gauss-jellegűek. Ilyenkor a következő − nagyon logikus − eredményre jutunk az ismeretlen átlagok (és szórások) becslésénél. Az eredményeket − a jobb áttekinthetőség kedvéért − skalár részeloszlások esetére közöljük, amikor csak az eloszlások várható értéke ( m i MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyBamaaBaaaleaacaWGPbaabeaaaaa@3775@ ) ismeretlen, a szórásuk azonos és ismert. (Természetesen az is ismeretlen, hogy a keverékből melyik adat melyik eloszláshoz tartozik.)

E{ P ^ ( ω i | x j , θ ^ i ) }= e ( x j m j ) 2 2 σ 2 r e ( x j m r ) 2 2 σ 2 MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyramaacmaabaGaaGjcVlaayIW7ceWGqbGbaKaadaqadaqaaiabeM8a3naaBaaaleaacaWGPbaabeaakmaaeeaabaGaamiEamaaBaaaleaacaWGQbaabeaakiaacYcaceWH4oGbaKaadaWgaaWcbaGaamyAaaqabaaakiaawEa7aaGaayjkaiaawMcaaiaayIW7caaMi8oacaGL7bGaayzFaaGaeyypa0ZaaSaaaeaacaWGLbWaaWbaaSqabeaadaWcaaqaaiabgkHiTmaabmaabaGaamiEamaaBaaameaacaWGQbaabeaaliabgkHiTiaad2gadaWgaaadbaGaamOAaaqabaaaliaawIcacaGLPaaadaahaaadbeqaaiaaikdaaaaaleaacaaIYaGaeq4Wdm3aaWbaaWqabeaacaaIYaaaaaaaaaaakeaadaaeqbqaaiaadwgadaahaaWcbeqaamaalaaabaGaeyOeI0YaaeWaaeaacaWG4bWaaSbaaWqaaiaadQgaaeqaaSGaeyOeI0IaamyBamaaBaaameaacaWGYbaabeaaaSGaayjkaiaawMcaamaaCaaameqabaGaaGOmaaaaaSqaaiaaikdacqaHdpWCdaahaaadbeqaaiaaikdaaaaaaaaaaSqaaiaadkhaaeqaniabggHiLdaaaaaa@6971@ (13.29)

m i = j E{ P ^ ( ω i | x j , θ ^ i ) }  x j j E{ P ^ ( ω i | x j , θ ^ i ) } MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyBamaaBaaaleaacaWGPbaabeaakiabg2da9maalaaabaWaaabuaeaacaWGfbWaaiWaaeaaceWGqbGbaKaadaqadaqaaiabeM8a3naaBaaaleaacaWGPbaabeaakmaaeeaabaGaamiEamaaBaaaleaacaWGQbaabeaakiaacYcaceWH4oGbaKaadaWgaaWcbaGaamyAaaqabaaakiaawEa7aaGaayjkaiaawMcaaiaayIW7caaMi8oacaGL7bGaayzFaaGaaeiiaiaadIhadaWgaaWcbaGaamOAaaqabaaabaGaamOAaaqab0GaeyyeIuoaaOqaamaaqafabaGaamyramaacmaabaGabmiuayaajaWaaeWaaeaacqaHjpWDdaWgaaWcbaGaamyAaaqabaGcdaabbaqaaiaadIhadaWgaaWcbaGaamOAaaqabaGccaGGSaGabCiUdyaajaWaaSbaaSqaaiaadMgaaeqaaaGccaGLhWoaaiaawIcacaGLPaaacaaMi8UaaGjcVdGaay5Eaiaaw2haaaWcbaGaamOAaaqab0GaeyyeIuoaaaaaaa@6627@ (13.30)

Látható, hogy ha tudnánk, hogy melyik minta melyik részeloszlásból származik, akkor visszakapnánk a várható érték becslésére a jól ismert átlagértéket – azon értékek átlagát, amelyek az adott részeloszláshoz tartoznak. (Az E{ P ^ ( ω i | x j , θ ^ i ) } MathType@MTEF@5@5@+=feaagCart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLnhiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr4rNCHbGeaGqi=G0dg9qqqrpepC0xbbL8F4rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbba9pwe9Q8fs0=yqaqpepae9pg0FirpepeKkFr0xfr=xfr=xb9adbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyramaacmaabaGabmiuayaajaWaaeWaaeaacqaHjpWDdaWgaaWcbaGaamyAaaqabaGcdaabbaqaaiaadIhadaWgaaWcbaGaamOAaaqabaGccaGGSaGabCiUdyaajaWaaSbaaSqaaiaadMgaaeqaaaGccaGLhWoaaiaawIcacaGLPaaacaaMi8UaaGjcVdGaay5Eaiaaw2haaaaa@47C3@ várhatóértékek 1, illetve 0 értéket vennének fel, attól függően, hogy az adott mérés a kiválasztott eloszláshoz tartozik-e vagy sem.)



[9] Ebben a szakaszban a valószínűségek jelölésére használt P helyett a mintaszámot ismét L-lel jelöljük