23. fejezet - Valószínűségi nyelv-feldolgozás

Ebben a fejezetben meglátjuk, hogyan lehet egyszerű, statisztikailag tanított nyelvi modelleket szavak millióinak feldolgozására használni ahelyett, hogy csak egyes mondatok feldolgozására használnánk

A 22. fejezetben láttuk, hogyan képes egy ágens kommunikálni egy másik (szoftver vagy emberi) ágenssel közös nyelvi megnyilatkozások segítségével. A megnyilatkozások teljes szintaktikai és szemantikai elemzése szükséges a jelentésük teljes kinyeréséhez, ami azért lehetséges, mert a megnyilatkozások rövidek és körülhatárolt tárgyterületre korlátozottak.

Ebben a fejezetben a nyelvmegértés korpuszalapú (corpus-based) megközelítését tárgyaljuk. A korpusz egy nagy szöveggyűjtemény, például az a több milliárd oldal, ami a világhálót építi fel. A szövegeket emberek írják embereknek, és a szoftverek feladata az, hogy megkönnyítsék az embereknek az információkeresést. Ez a megközelítés magában foglalja statisztikák és tanulás használatát a korpusz kihasználására, és jellemzően olyan valószínűségi nyelvi modelleket von maga után, amelyek az adatokból tanulhatók, és amelyek egyszerűbbek, mint a 22. fejezet kibővített DCG-i. A legtöbb feladat esetén az adatmennyiség kárpótol azért, hogy egyszerűbb nyelvi modellt használunk. Három specifikus feladatot fogunk áttekinteni: az információkeresést (information retrieval) (23.2. alfejezet), az információkinyerést (information extraction) (23.3. alfejezet) és a gépi fordítást (machine translation) (23.4. alfejezet). Elsőként azonban a valószínűségi nyelvi modelleket (probabilistic language model) mutatjuk be röviden.