Home > Information Retrieval, World Wide Whatever > Nestrukturovaná data: Kolik jich je?

Nestrukturovaná data: Kolik jich je?

Už jste to slyšeli? Osmdesát až pětaosmdesát procent všech dat kolem nás je nestrukturovaných. Tedy jenom patnáct až dvacet procent dat sedí v pevně definovaných strukturách tabulek databází. Jednou se jako zdroj této informace uvádí Gartner, jindy IDC, Merrill Lynch nebo IBM.

Odkud se všechna ta čísla berou? A jak je prokázat?

„Množství informací se zdvojnásobuje po každých 1100 dnech, tedy zhruba po třech letech. Nicméně čas, který máme k zpracování těchto narůstajících informací je stále stejný: 1440 minut denně.“

Tento známý výrok Billa Jensena z knihy Simplicity platí už jen z jeho druhé poloviny. Množství dat se v organizacích zdvojnásobuje přinejmenším za polovinu Jensenem uváděného času.

Materiál IBM The Toxic Terabytes z roku 2006 dokonce uvádí, že do čtyř let můžeme počítat s tím, že celosvětová data se budou zdvojnásobovat každých jedenáct (!) hodin. Je tomu dnes v r. 2010 skutečně tak?

Každopádně nárůst dat je v dnešní době závratný. Zatímco před asi dvaceti lety pracovaly profesionální počítače s kilobajty a megabajty dat, dnešní školáci jich se svými laptopy spravují gigabajty a mezi profesionály se běžně hovoří o tera (1012 ) a petabytech (1015 ). Následují exa (1018 ), zetta (1021 ) a yotta (1024 ) bajty.

Jedna ze studií IDC hovoří o tom, že v roce 2006 bylo celkem vygenerováno 161 exabajtů dat, což představuje tři milionkrát více dat než se nacházelo v dosud vydaných knihách. Podle jiné studie společnosti Cisco v roce 2013 dosáhne objem IP komunikace dvou třetin zettabajtu, tj. 667 exabajtů. Video obsah na internetu bude v r. 2013 představovat 18exabajtů měsíčně a mobilní datová komunikace přenese v tom samém roce měsíčně dva exabajty dat.

Pro tak často uváděných 80% nestrukturovaných dat nelze dohledat žádné seriozní průzkumy, o které by bylo možné se opřít. Na druhé straně, expert přes data Philip Russom z The Datawarehouse Institute (TDWI) prezentoval v r. 2007 ve své práci zcela jiné údaje. Nejprve rozdělil široké datové spektrum na:

Strukturovaná data. Jeden z extrémů datového kontinua. Tato data se vyskytují zejména v databázích různých typů.

(Finanční transakce, data z různých snímačů a RFID čteček, aplikací Business Intelligence a datových skladů)

Nestrukturovaná data. Opačný extrém k předchozímu zahrnující dokumenty jakými jsou soubory z textových editorů, webové stránky, e-maily, audio a video.

(Těmito daty se zabývá Content Management, který disponuje mnohem širším záběrem, než jeho předchůdce Document Mangement)

Semistrukturovaná data. Vyplňují prostor definovaný oběma výšeuvedenými extrémy.

(Data z tabulkových procesorů, RSS feeds a XML dokumentů)

Grafické znázornění datového spektra/kontinua:

Podle tohoto průzkumu bylo 47 procent dat strukturovaných, 31 procent nestrukturovaných a zbylých 22 procent semistrukturovaných. I když dvě poslední kategorie označíme jako nestrukturovaná data – dostáváme se na 53 procent.

To ale stále není oněch 80-85%, které jsou běžně uváděny.

Související články:

Big Data & Big Knowledge

Big Big Data

Atlas oblaků: Mapy cloud computingu

  1. ADP
    07/02/2012 at 16:17

    I like this blog very much, Its a very nice office to read and incur info .

  2. 08/02/2012 at 07:07

    You have noted very interesting details ! ps nice site.

  3. 08/02/2012 at 16:30

    I am forever thought about this, thanks for posting .

  4. 09/02/2012 at 14:25

    I really enjoy examining on this site, it holds good blog posts.

  5. 09/02/2012 at 21:55

    I am always thought about this, regards for posting .

  6. 10/02/2012 at 18:41

    I went over this web site and I think you have a lot of excellent info , saved to bookmarks (:.

  7. 11/02/2012 at 03:57

    great post. Ne’er knew this, regards for letting me know.

  8. 13/02/2012 at 02:13

    There’s a lot of information here. I’ll be back again.

  9. 14/02/2012 at 04:51

    Best article, lots of intersting things to digest. Very informative

  10. 14/02/2012 at 11:26

    Wohh just what I was searching for, appreciate it for putting up.

  11. 16/02/2012 at 08:08

    I enjoy your work , thankyou for all the informative posts .

  12. 22/02/2012 at 08:29

    There is visibly a bunch to identify about this. I believe you made certain good points in features also.

    • pza
      26/02/2012 at 17:16

      I’d like to see any serious analytics on that. However, did not succeed yet.

  1. No trackbacks yet.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: