Cikkfejezetek

Interjú Sander Lestrade-vel a Zipf-törvény évszázados rejtélyének megoldásáról

Interjú Sander Lestrade-vel egy évszázados nyelvi probléma megoldásáról

Interjú Sander Lestrade-vel egy évszázados nyelvi probléma megoldásáról

A Zipf törvénye régóta ismert. Csaknem egy évszázadon át ellenállt a magyarázatnak, és a számítástechnikai nyelvészet legnagyobb rejtélyévé vált. A közelmúltban a média arról számolt be, hogy Sander Lestrade a nijmegeni Radboud Egyetemen megoldást talált. Rövid interjúban elmagyarázza a Zipf törvényének megoldását.

lestrade-vel

1. Kérem, röviden ismertesse olvasóinkkal a Zipf törvényét?

Sander Lestrade: A Zipf-törvény kimondja, hogy egy szövegben a szó gyakorisága leírható annak gyakorisági rangja alapján, hogy a második leggyakrabban használt elem fele olyan gyakoriságú, mint az első (gyakoriság első tétel/2), a harmadik szó az első tétel frekvenciájának frekvenciájának egyharmada (első frekvencia/3) stb. Egészen a legkevésbé használt szóig, amely csak egyszer jelenik meg!

2. Minden nyelv betartja-e a Zipf törvényét? Ha nem, mely nyelvek nem követik a Zipf törvényét?

Sander Lestrade: Bár magam sem ellenőriztem, a nyelvészek szerint a törvény minden nyelvre érvényes. (Azt jósolnám, hogy ez nem áll fenn a pidgin nyelveknél, mivel ezeknek nincs megfelelő nyelvtana.)

3. Meg tudná magyarázni nekünk felfedezését? Idézve a közleményből: "Ha a szóosztályokon belül megsokszorozza a jelentésbeli különbségeket az egyes szóosztályok szükségességével, csodálatos Zipfian eloszlást talál." Kérem, meg tudná magyarázni egy kicsit közelebbről, mi a különbség a jelentésben, hogyan számszerűsíti? Talán egy példa segít.

Ezt a szemantikai valószínűséget meg kell szorozni (szó szerint) az adott kategóriába tartozó szó szükségességével. A nyelveknek vannak olyan szabályaik, amelyek megmondják, hogyan kell a szavakat kombinálni. Az ige egy vagy két főnévi mondatot (vagy névmást) igényel, a főnévi kifejezés általában cikkhez tartozik stb. Ez számos olyan szóosztályra terjed ki (például igék, főnevek, névmások, elöljárók), amelyek mindegyike elvárt gyakorisággal rendelkezik egy nyelvben. Nagyjából az osztályokat ugyanolyan gyakran használják, de méretükben nagyon különböznek: csak három cikk van angolul, de több tízezer főnév. Ennek eredményeként egy cikket átlagosan sokkal gyakrabban fognak használni, mint egy főnevet.

Tekintettel arra, amit az imént mondtunk a jelentésről, a szavakat nem használják ugyanolyan gyakran osztályukban. Ez a jelentésük specifikációjától függ.

4. Magyarázata-elmélete mond némi rálátást arra, hogy miért épülnek fel ilyen módon a nyelvek? Miért van Zipfian eloszlásuk, és nem valamilyen más eloszlásuk?

Sander Lestrade: Adott szóosztályok, amelyek osztályméretükben sorrendben vagy nagyságrendben különböznek egymástól, nagyon durva hatalmi törvényekre, például eloszlásra lehet számítani. Ekkor az a kérdés, hogy miért van a nyelveknek kicsi nyelvtani és hatalmas lexikai osztálya. A lexikális osztályok könnyen megmagyarázhatók: sok szóra van szükségünk, hogy beszéljünk a minket érdeklő dolgokról. Hogy miért alakulnak ki a nyelvtani osztályok, kevésbé világos. Gondolkodásom szerint a nyelvhasználat véletlenszerű melléktermékei, amelyek csak az idő múlásával fejlődnek ki, nem a nyelv velejárója. De ezzel nem mindenki értene egyet;)