N-gramy a jiné váhy
S N-gramy se na konci loňského roku doslova roztrhl pytel. A to zejména díky službě Ngram Viewer nad korpusem více než pěti milionů Google Books, kterou (znovu)ohlásila společnost Google. Psalo se o tom téměř všude. Co jsou to vlastně N-gramy?
Skočme do toho rovnýma nohama. N-gram je víceslovný výraz představující jistý soubor slov. Víceslovné výrazy dělíme na N-gramy a kolokace.
N-gram je každá n-tice slov, která se zrovna v textu za sebou vyskytla. A to aniž by musela syntakticky nebo jinak patřit k sobě. Podle čísla, které představuje písmeno N, rozeznáváme unigramy (N=1), bigramy či digramy (N=2), trigramy (N=3) a dále už prostě jenom N-gramy. N-gram představuje jazykový model sloužící pro vytváření a hledání statistik nad n-ticemi slov zdrojového textu. N-gramy nejčastěji využíváme při hledání kolokací.
Kolokace jsou ustálená slovní spojení dvou a více slov, která mezi sebou mají jistou vazbu. Jsou neoddělitelná a jejich rozdělením se ztrácí význam původního výrazu. Jejich význam je tedy podmíněný sémantickými pravidly.
Příklady kolokací: zahradní slavnost, zimní slunovrat, londýnská burza, Ferda Mravenec, konečný automat, ležet ladem, neskutečně krásný, poštovní směrovací číslo, Spojené staty americké, zbraně hromadného ničení, periodická tabulka prvků, chození kolem horké kaše, kamarádi z mokré čtvrti, atd…
A k čemu je to všechno vlastně dobré? Například při sestavování slovníků nebo u strojových překladů textů či jejich automatickém rozpoznávání.
A jsme zpátky u Google Ngram Viewer, se kterým si lze užít hodně zábavy hned v několika světových jazycích. Včetně hebrejštiny. V Respektu jej například testovali na vagínu. Na to pozor, proces skenování a OCR vnáší do systému občas nějaké chyby. Proto nevěřte všem nalezeným fuck ze XVII. století či internetu před rokem 1950. Více zde.
Všechny jazykové korpusy k Google Ngram Viewer jsou rovněž volně dostupné.