23.5. Összefoglalás

A fejezet főbb pontjai a következők:

  • Az n-gram alapú valószínűségi nyelvi modellek meglepő mennyiségű információt képesek visszaadni egy nyelvről.

  • A CFG-ket ki lehet egészíteni valószínűségi CFG-kre, könnyebbé téve az adatok alapján történő tanulásukat és a kétértelműségek feloldását.

  • Az információkereső (information retrieval) rendszerek egy nagyon egyszerű, szózsákokra épülő nyelvi modellt használnak, ennek ellenére jó felidézési (recall) és pontossági (precision) mutatókkal rendelkeznek nagyon nagy korpuszokon.

  • Az információkinyerő (information extraction) rendszerek bonyolultabb modellt alkalmaznak, amely korlátozottan figyelembe veszi a szintaxist és a szemantikát. Gyakran véges automaták kaszkádjával valósítják meg őket.

  • A gépi fordító (machine translation) rendszereket különböző technikák alkalmazásával valósították meg, a teljes szintaktikai és szemantikai analízistől kezdve egészen a szógyakoriságon alapuló statisztikai módszerekig.

  • Egy statisztikai nyelvi rendszer építése során az a legjobb, ha olyan rendszert gondolunk ki, amely a rendelkezésre álló adatokat jól hasznosítja, még akkor is, ha a modell a végletekig leegyszerűsítettnek tűnik.

23.5.1. Irodalmi és történeti megjegyzések

Az n-gram betűmodelleket nyelvi modellezésre Markov javasolta (Markov, 1913). Claude Shannon generált elsőként n-gram szómodelleket az angol nyelvre (Shannon és Weaver, 1949). Chomsky mutatta meg a véges állapotú modellek korlátait a környezetfüggetlen modellekhez képest, az alábbi következtetést levonva: „Valószínűségi modellek nem adnak részletes bepillantást a szintaktikai struktúrák egyes alapvető problémáiba” (Chomsky, 1956; 1957). Ez igaz, azonban figyelmen kívül hagyja azt a tényt, hogy a valószínűségi modellek lehetővé teszik a bepillantást néhány más alapvető problémába, olyanokba, amelyekkel a CFG-k nem foglalkoznak. Chomsky észrevételeinek olyan sajnálatos hatása volt, hogy két évtizeden keresztül sokakat elijesztett a statisztikai modellektől egészen addig, míg ezek a modellek újra megjelentek a beszédfelismerésben (Jelinek, 1976).

Az adj-hozzá-egyet simítás Jeffreystől származik (Jeffreys, 1948), míg a törölt interpolációs simítás Jelinektől és Mercertől, akik beszédfelismerésre használták (Jelinek és Mercer, 1980). További technikákra példa a Witten–Bell-simítás (Witten–Bell, 1991) és a Good–Turing-simítás (Church és Gale, 1991). Az utóbbit gyakran használják bioinformatikai problémáknál is. A biostatisztika és a valószínűségi természetes nyelv feldolgozás (NLP) közelednek egymáshoz, mivel mindkettő alkotóelemek ábécéjéből felépülő hosszú, strukturált szekvenciákkal foglalkozik.

Az egyszerű n-gram betű- és szómodellek nem az egyetlen lehetséges valószínűségi modellek. Blei és társai leírják a rejtett Dirichlet-allokációnak (latent Dirichlet allocation) nevezett valószínűségi szövegmodellt, amely a szövegeket témák keverékének tekinti, amelyben mindegyik téma saját szóeloszlással rendelkezik (Blei és társai, 2001). Ez a modell a rejtett szemantikai indexelés (latent semantic indexing) modell (Deerwester és társai, 1990) (lásd még (Papadimitriou és társai, 1998)) kibővítésének és racionalizálásának tekinthető, valamint Sahami és társai többszörös okkeverék (cause mixture) modelljéhez is kötődik (Sahami és társai, 1996).

A valószínűségi környezetfüggetlen nyelvtanok (PCFG) megválaszolják Chomsky valószínűségi modellekkel kapcsolatos összes ellenvetését, és a CFG-khez képest előnyökkel rendelkeznek. A PCFG-ket Booth (Booth, 1969) és Salomaa (Salomaa, 1969) vizsgálták. Jelinek bemutatja a veremdekódoló algoritmust, amely a Viterbi-keresés olyan variációja, amely arra használható, hogy megtalálja egy PCFG-vel a legvalószínűbb elemzést (Jelinek, 1969). Baker vezette be a belső–külső algoritmust (Baker, 1979), Lari és Young leírta használhatóságát és korlátait (Lari és Young, 1990). Charniak (Charniak, 1996), valamint Klein és Manning (Klein és Manning, 2001) a treebank nyelvtanokkal történő elemzést tárgyalják. Stolcke és Omohundro megmutatták, hogyan lehet nyelvtani szabályokat tanulni Bayes-modellek egyesítésével (Stolcke és Omohundro, 1994). További PCFG-algoritmusokat mutatott be Charniak (Charniak, 1993), valamint Manning és Schütze (Manning és Schütze, 1999). Collins a terület áttekintő tanulmányát kínálja, továbbá az egyik legsikeresebb statisztikai elemzőprogram magyarázatát (Collins, 1999).

Sajnos a PCFG-k rosszabbul teljesítenek, mint az egyszerű n-gram modellek számos feladat esetén, mert a PCFG-k nem képesek reprezentálni az egyes szavakhoz társuló információkat. Hogy kijavítsák ezt a hiányosságot, számos szerző (Collins, 1996; Charniak, 1997; Hwa, 1998) bevezették a szókinccsel ellátott valószínűségi nyelvtanok (lexicalized probabilistic grammar) különböző verzióit, amelyek kombinálják a környezetfüggetlen és a szóalapú statisztikákat.

A Brown-korpusz volt az első próbálkozás, hogy tapasztalati nyelvészeti célokra kiegyensúlyozott korpuszt gyűjtsön (Francis és Kucera, 1967). Körülbelül egymillió szót tartalmazott, szófaji információval ellátva. Eredetileg 100 ezer lyukkártyán tárolták. A Penn treebank körülbelül 1,6 millió szó gyűjteménye, kézi elemzéssel fákba rendezve. Elfér egy CD-n. A brit nemzeti korpusz (British National Corpus) kibővíti ezt 100 millió szóra (Leech és társai, 2001). A világháló több mint egybillió szót tartalmaz, több mint 10 millió szerveren tárolódik.

Az információkeresés (informational retrieval) területe iránti érdeklődés újra nő, amelyet az internetes keresés széles körű elterjedése inspirál. Robertson egy korai áttekintést ad, és bevezeti a valószínűségi rangsorolási elvet (Robertson, 1977). Manning és Schütze az NLP statisztikai megközelítésének kontextusában tárgyalja röviden az IR-t (Manning és Schütze, 1999). Baeza-Yates és Ribeiro-Neto általános célú áttekintést ad (Baeza-Yates és Ribeiro-Neto, 1999), helyettesítve az olyan régi klasszikusokat, mint Salton és McGill (Salton és McGill, 1983), valamint Frakes és Baeza-Yates (Frakes és Baeza-Yates, 1992). A Gigabájtok kezelése (Managing Gigabytes) c. könyv pont azt teszi, amit a címe mond: elmagyarázza hogyan lehet hatékonyan indexelni, tömöríteni és lekérdezni gigabájtos méretű korpuszokat (Witten és társai, 1999). Az amerikai kormány Nemzeti Szabványügyi és Technológiai Intézete (National Institute of Standards and Technology, NIST) által szervezett TREC konferencia minden évben megrendezi az IR-rendszerek versenyét, és kiadványában publikálja az eredményeket. A verseny első hét évében a részt vevő rendszerek teljesítménye körülbelül megduplázódott.

A legnépszerűbb IR-modell a vektortér modell (vector space model) (Salton és társai, 1975). Salton munkája uralta a terület korai éveit. Két alternatív valószínűségi modell létezik. Mi a Ponte és Croft munkáján alapulót mutattuk be (Ponte és Croft, 1998). A P(D, Q) közös valószínűségi eloszlást P(Q|D) segítségével modellezi. Egy alternatív modell (Maron és Kuhns, 1960; Robertson és Sparck Jones, 1976) a P(D|Q)-t használja. Lafferty és Zhai megmutatta, hogy a modellek ugyanazon a közös valószínűségi eloszláson alapulnak, azonban a modellválasztásnak következményei vannak a paramétertanításra (Lafferty és Zhai, 2001). Az általunk bemutatottak az ő munkájukon alapul. Turtle és Croft összehasonlítják a különféle IR-modelleket (Turtle és Croft, 1992).

Brin és Page leírják egy világhálón kereső gép implementációját, taglalva a PAGERANK algoritmust is, mely a dokumentumok minőségének weblinkek elemzésén alapuló lekérdezésfüggetlen mértéke (Brin és Page, 1998). Kleinberg leírja, hogyan lehet hiteles forrásokat találni a weben hivatkozáselemzéssel (Kleinberg, 1999). Silverstein és társai megvizsgáltak egy egymilliárd webkeresést tartalmazó logot (Silverstein és társai, 1998). Kukich felmérte a helyesírási hibák javításának irodalmát (Kukich, 1992). Porter leírja a klasszikus szabályalapú szótövesítő algoritmust (Porter, 1980), míg Krovetz egy szótáralapú verziót ír le (Krovetz, 1993).

Manning és Schütze a dokumentumosztályozás és klaszterezés alapos áttekintését adják (Manning és Schütze, 1999). Joachims statisztikai tanulási elméletet és szupport vektor gépeket alkalmazott annak elméleti vizsgálatára, hogy mikor sikeres egy osztályozás (Joachims, 2001). Apté és társai a Reuters-hírek „Jövedelmek” kategóriába történő osztályozásánál 96%-os pontosságot publikált (Apté és társai, 1994). Koller és Sahami 95%-os pontosságot ért el egy naiv Bayes-osztályozóval, és akár 98,6%-ot is, ha olyan Bayes-osztályozót alkalmazott, amely bizonyos jellemzők közti összefüggéseket is figyelembe vett (Koller és Sahami, 1997). Lewis áttekinti a Bayes-osztályozók negyvenéves alkalmazását szövegosztályzásra és visszakeresésre (Lewis, 1998).

Az Information Retrieval újság és az éves SIGIR konferenciakiadványai a terület friss fejleményeit fedik le.

A korai információkinyerő programok közé tartozik a GUS (Bobrow és társai, 1977) és a FRUMP (DeJong, 1982). A modern információkinyerő rendszerek egyes tervezési részletei az 1970–1980-as évekbeli szemantikai nyelvtanokkal foglalkozó kutatásokra vezethetők vissza. Például egy szemantikai nyelvtanokon alapuló repülőgép-foglaló rendszer interfésze olyan kategóriákkal rendelkezne, mint a Hely és a Repül, az NP-k és a VP-k helyett. Birnbaum és Selfridge munkája egy szemantikai nyelvtanon alapuló rendszer megvalósítását mutatja be (Birnbaum és Selfridge, 1981).

Az újabb keletű információkinyeréssel foglalkozó munkákat az amerikai kormány által szponzorált Message Understand Conference (MUC) konferenciák mozgatták. A Fastus-rendszert Hobbs és társai készítették (Hobbs és társai, 1997), és az a publikációgyűjtemény, amely bemutatja, további véges állapotú modelleket alkalmazó rendszereket is felsorol (Roche és Schabes, 1997).

Az 1930-as években Petr Troyanskii beadott egy „fordítógépre” vonatkozó szabadalomkérelmet, azonban még nem állt rendelkezésre számítógép ötleteinek megvalósítására. 1947 márciusában a Rockefeller Alapítványnak dolgozó Warren Weaver az írta Norbert Weinernek, hogy a gépi fordítás megvalósítható lehet. A kriptográfiai és információelméleti munkákra alapozva Weaver azt írta, hogy: „Amikor egy orosz nyelvű cikket nézek, azt mondom, hogy »Ezt igazából angolul írták, azonban furcsa szimbólumokkal kódolták. Most pedig nekiállok a dekódolásnak.«” A következő évtizedben a közösség ilyen módon próbálta a dekódolást. Az IBM 1954-ben bemutatott egy kezdetleges rendszert. Bar-Hillel (Bar-Hillel, 1960), valamint Locke és Booth (Locke és Booth, 1955) leírták az ebben az időszakban meglévő lelkesedést. A gépi fordításból való későbbi kiábrándulást Lindsay írta le, aki a gépi fordítás néhány olyan akadályát is bemutatta, amelyek a szintaxis és a szemantika közti kölcsönhatáshoz és a világ ismeretének szükségességéhez kötődnek (Lindsay, 1963). Az amerikai kormány csalódott az előrehaladás hiánya miatt, ezt egy jelentés akként összegezte, hogy „a gépi fordításnak nincs közvetlen vagy megjósolható jövője” (ALPAC, 1966). Ennek ellenére korlátozottan ugyan, de folytatódott a munka, és az amerikai légierő 1970-ben „hadrendbe állította” a SYSTRAN-rendszert, míg az Európai Közösség 1976-ban kezdte azt használni. A TAUM-METEO időjárásjelentés-fordító rendszer használata szintén 1976-ban indult (Quinlan és O’Brien, 1992). Az 1980-as években a rendelkezésre álló számítási teljesítmény eljutott arra a szintre, ahol az ALPAC megállapításai már nem voltak helyesek. Voorhees bemutat néhány Wordneten alapuló, közelmúltbeli fordítási alkalmazást (Voorhees, 1993). Bevezető tankönyvet Hutchins és Somers írt (Hutchins és Somers, 1992).

A statisztikai gépi fordítás Weaver 1947-es megjegyzéséig nyúlik vissza, azonban csak az 1980-as évekre jutott el gyakorlati szintre. Az általunk bemutatottak Brown és kollégáinak IBM-beli munkáin alapulnak (Brown és társai, 1988; 1993). Nagyon komoly matematikát alkalmaznak, ezért a Kevin Knight által írt kísérő oktatóanyag sokat segít a megértésben (Knight, 1999). A még frissebb statisztikai gépi fordítás területén végzett munkák továbblépnek a bigram modellen, és olyan modelleket használnak, amelyek valamennyi szintaxist is figyelembe vesznek (Yamada és Knight, 2001). A mondatszegmentáció terén Palmer és Hearst végezték a korai munkákat (Palmer és Hearst, 1994). Michel és Plamondon a kétnyelvű mondatillesztésről értekezik (Michel és Plamondon, 1996).

Két kitűnő könyv szól a valószínűségi nyelvfeldolgozásról: Charniak könyve rövid és lényegre törő (Charniak, 1993), míg Manning és Schütze munkája átfogó és naprakész (Manning és Schütze, 1999). A gyakorlati nyelvfeldolgozás terén végzett munkákat a kétévente megrendezett Applied Natural Language Processing (ANLP) és az Empirical Methods in Natural Language Processing (EMNLP) konferenciák, valamint a Natural Language Engineering folyóirat mutatja be. A SIGIR egy hírlevelet és egy információkeresést tárgyaló évenkénti konferenciát támogat.

23.5.2. Feladatok

23.1.

(Jurafsky és Martin, 2000) alapján. Ebben a feladatban szerzőséget osztályozó rendszert fogunk kifejleszteni, amely egy adott szöveg esetén megpróbálja meghatározni, hogy a két pályázó szerző közül melyik írta a szöveget. Szerezzünk be szövegeket két különböző szerzőtől. Válasszuk szét őket tanító és teszthalmazokra. Tanítsunk unigram modellt mindkét szerző tanító halmaza alapján. Végül minden egyes tesztelő szövegre számítsuk ki mindkét unigram modellre a valószínűséget, és rendeljük a legvalószínűbb modellhez. Határozza meg a technika pontosságát. Tudná növelni a pontosságot további jellemzőkkel? A nyelvészet ezen részterületét a stílusmérés tudományának (stylometry) nevezzük, sikerei közé sorolható a Federalist Papers (Mosteller és Wallace, 1964), valamint Shakespeare néhány vitatott munkája (Foster, 1989) szerzőjének meghatározása.

23.2.

Ez a feladat az n-gram modellek minőségét méri fel. Keressen vagy hozzon létre körülbelül 100 ezer szavas egynyelvű korpuszt. Tördelje szavakra, és számítsa ki az egyes szavak előfordulási gyakoriságát. Hány különböző szó található benne? Ábrázolja a gyakoriságot a sorrend (leggyakoribb, második leggyakoribb stb.) függvényében log–log skálán. Határozza meg a bigramok (két egymást köbvető szó) és trigramok (három egymást követő szó) gyakoriságát is. Használja ezeket a gyakoriságokat nyelv generálására: az unigram, bigram és trigram modell alapján a gyakoriságnak megfelelő véletlen választással generáljon 100 szavas szövegeket. Hasonlítsa össze ezeket a szövegeket a ténylegesen beszélt nyelvvel. Végül számolja ki az egyes modellek összetettségét.

23.3.

Ez a feladat a spam-felismeréssel foglalkozik. A spam definíciója „kéretlen tömeges reklám e-mail”. A spam kezelése bosszantó elfoglaltság számos e-mailező számára, tehát megbízható eltávolításuk áldás lenne. Hozzon létre spam és spam-mentes e-mailekből álló korpuszt. Elemezze mindkét korpuszt, és állapítsa meg, hogy mely jellemzők lennének alkalmasok az osztályozásra (unigram, brigram, üzenethossz, feladó, érkezési idő). Ezután tanítson egy osztályozó algoritmust (döntési fa, naiv Bayes vagy más, Ön által választott algoritmus) egy tanító halmazon, majd értékelje pontosságát egy teszthalmazon.

23.4.

Készítsen öt lekérdezésből álló teszthalmazt, majd küldje el három nagy webkeresőnek. Értékelje mindegyik pontosságát az első 1, 3 és 10 dokumentumra és az átlagos reciprok rangra. Próbálja megmagyarázni az eltéréseket.

23.5.

Próbáljon megbizonyosodni arról, hogy az előbbi feladat keresőgépei közül melyek használnak betűkonverziót, szótövesítést, szinonimákat és helyesírásihiba-javítást.

23.6.

Becsülje meg, hogy mekkora tárterület szükséges egy egymilliárd weboldalt tartalmazó korpusz indexeléséhez. Mutassa be a feltételezéseket, amelyekre alapozott.

23.7.

Írjon egy reguláris kifejezést vagy egy rövid programot vállalatnevek kinyerésére. Tesztelje üzleti híreket tartalmazó cikkeken. Adja meg az elért felidézést és pontosságot.

23.8.

Válasszon ki öt mondatot és küldje el egy internetes fordítószolgáltatásnak. Fordítsa le angolról egy idegen nyelvre, majd vissza angolra. Értékelje a kapott mondatokat nyelvtani helyesség és a jelentés megtartásának szempontjából. Ismételje meg a folyamatot; az iteráció második lépése rosszabb vagy azonos eredményeket ad? Befolyásolja az eredmény minőségét a közbenső nyelv megválasztása?

23.9.

Gyűjtsön össze időre vonatkozó kifejezéseket, például „két órakor”, „éjfélkor”, „12:46-kor”. Találjon ki olyan nyelvtanilag helytelen példákat is, mint „huszonöt órakor” vagy „félnegyedháromkor”. Írjon nyelvtant az idő nyelvére.

23.10.

(Knight, 1999) alapján. Az IBM Model 3 gépi fordító feltételezi, hogy miután a szóválasztási modell egy szólistát ajánl, a nyelvi modell képes kiválasztani a legjobb permutációt. Ez a feladat megvizsgálja, hogy mennyire értelmes ez a feltételezés. Próbálja meghatározni a következő mondatok szavainak helyes sorrendjét:

  1. have programming a seen never I language better

  2. loves john mary

  3. is the communication exchange of intentional information brought by about the production perception of and signs from drawn a of system signs conventional shared

Melyik mondat szavait tudta sorrendbe tenni? Milyen tudás alapján volt erre képes? Tanítson egy bigram modellt egy tanító korpusz alapján, és használja arra, hogy meghatározza egy tesztkorpusz mondatainak legnagyobb valószínűségű permutációit. Mutassa meg a modell pontosságát.

23.11.

Amennyiben megnéz egy angol–francia szótárt, a „hear” ige fordítása „entendre”.[269] Azonban ha az IBM Model 3-at a kanadai Hansard alapján tanítjuk, akkor a „hear” legvalószínűbb fordítása „Bravo”. Magyarázza meg, hogy mi ennek az oka, és becsülje meg, hogy mi lehet a „hear” termékenységi eloszlása. (Segítség: ha Hansard-szövegeket szeretne megnézni, írja be egy webkeresőbe a [Hansard hear] lekérdezést.)



[269] hall, hallgat (A ford.)