Analýza sentimentu: Barometr nálady
Počítačovému software to jde dobře s čísly a tvrdými daty vůbec. Bude se mu ale dařit u detekce nálad a pocitů? Analýza sentimentu je dnes součástí vyhledávacích enginů. Výběr zboží nebo dovolené se bez zelené a červené barvičky téměř neobejde. To platí i pro recenze knih, hudby nebo filmů. O hodnocení nálad dedikovaných internetových fór a diskusí ani nemluvě.
Začalo to sémantickým diferenciálem, se kterým přišel Charles E. Osgood a jeho kolegové Suci a Tannenbaum v r. 1957. Vše pak sepsali v knize The Measurement of Meaning.
Nepřehlédnutelnou výhodou sémantického diferenciálu je jeho jednoduchost a možnost projekce do různých kultur a věkových skupin. I proto je stále příznivě vnímán širokou odbornou veřejností.
Klíčovými nositeli sentimentu jsou přídavná jména. Standardní forma sémantického diferenciálu s klasickým bodovým hodnocením bipolární škály adjektiv vypadá takto:
Dobrý 1_______2_______3______4______5_______6_______7 Špatný
nebo:
Dobrý 3_______2_______1______0______1_______2_______3 Špatný
(kde: 3 = velmi, 2 = dost, 1 = trochu a 0 = ani-ani)
Sémantický diferenciál se s výhodou používá k efektivnímu zjištění psychosémantické sítě. Pomocí něho a faktorové analýzy Osgood zjistil, že určitý pojem si každý člověk zařadí do svého sémantického prostoru, čímž se dostal k jednoznačné metrice pro určování významu slov. Ty je potřebné posuzovat ze tří základních pohledů. Jde o tyto tři emoční dimenze psaného textu:
- Hodnocení (posouzení pojmu pomocí bipolárních adjektiv; pozitivní – negativní)
- Potence (účinek výpovědi je silný – slabý)
- distance (vztah autora k tématu)
- specifičnost (forma formulace: jasná, vágní)
- určitost (autor si je jistý nebo je na pochybách?)
- Intenzita (emotivnost výpovědi)
Tyto tři kategorie a jejich podkategorie lze rovněž s výhodou použít pro automatickou detekci a klasifikaci pocitů a určení sentimentu konkrétního textu – např. počítačem.
Nutnou podmínkou úspěšnosti analýzy sentimentu je použití speciálních slovníků, které dokáží postihnout ironii, sarkasmus, slang nebo idiomatická spojení zkoumaného textu. Všechny jejich formy jsou totiž velmi časté v internetových diskusích. Kombinované navíc grafikou emotikonů (smajlíci, palce nahoru/dolů, apod.).
Jedním z prvních experimentů na poli analýzy sentimentu byla studie dvou dam, Bo Pang a Lillian Lee, které se na počátku tohoto století zabývaly analýzou filmových recenzí na internetu. Společně též napsaly monografii Opinion Mining and Sentiment Analyses. Ta se rovněž řadí k prvním v této oblasti.
Závěrem ukázka analýzy sentimentu na stránkách BBC. Pro akci je nutné stisknout tlačítko START. Vše ostatní lze řídit pomocí panelu na levé straně.