Home > Information Retrieval, World Wide Whatever > N-gramy a jiné váhy

N-gramy a jiné váhy

S N-gramy se na konci loňského roku doslova roztrhl pytel.  A to zejména díky službě Ngram Viewer nad korpusem více než pěti milionů Google Books, kterou (znovu)ohlásila společnost Google.  Psalo se o tom téměř všude.     Co jsou to vlastně N-gramy?

Skočme do toho rovnýma nohama. N-gram je víceslovný výraz představující jistý soubor slov. Víceslovné výrazy dělíme na N-gramy a kolokace.

N-gram je každá n-tice slov, která se zrovna v textu za sebou vyskytla. A to aniž by musela syntakticky nebo jinak patřit k sobě. Podle čísla, které představuje písmeno N, rozeznáváme unigramy (N=1), bigramy či digramy (N=2), trigramy (N=3) a dále už prostě jenom N-gramy.  N-gram představuje jazykový model sloužící pro vytváření a hledání statistik nad n-ticemi slov zdrojového  textu. N-gramy nejčastěji využíváme při hledání kolokací.

Kolokace jsou ustálená slovní spojení dvou a více slov, která mezi sebou mají jistou vazbu. Jsou neoddělitelná a jejich rozdělením se ztrácí význam původního výrazu. Jejich význam je tedy podmíněný sémantickými pravidly.

Příklady kolokací: zahradní slavnost, zimní slunovrat, londýnská burza, Ferda Mravenec, konečný automat, ležet ladem, neskutečně krásný, poštovní směrovací číslo, Spojené staty americké, zbraně hromadného ničení, periodická tabulka prvků, chození kolem horké kaše, kamarádi z mokré čtvrti, atd…

A k čemu je to všechno vlastně dobré? Například při sestavování slovníků nebo u strojových překladů textů či jejich automatickém rozpoznávání.

A jsme zpátky u Google Ngram Viewer, se kterým si lze užít hodně zábavy hned v několika světových jazycích. Včetně hebrejštiny.  V Respektu jej například testovali na vagínu. Na to pozor, proces skenování a OCR vnáší do systému občas nějaké chyby. Proto nevěřte všem nalezeným fuck ze XVII. století či internetu před rokem 1950. Více zde.

Všechny jazykové korpusy k Google Ngram Viewer jsou rovněž volně dostupné.

Advertisements
  1. No comments yet.
  1. No trackbacks yet.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: