SIT

Usare R per semplici analisi di Twitter

Lista delle parole

In questo esempio utilizzeremo la lista delle parole che caratterizzano i post positivamente o negativamente in lingua inglese sviluppata presso il Department of Computer Science del University of Illinois at Chicago. Il lavoro di classificazione è stato condotto sotto la direzione del prof. Bing Liu.
Per scaricare i file premere col pulsante destro sul link e scegliere di salvare il file nella cartella z:\sentiment
- Scarica la lista delle parole positive
- Scarica la lista delle parole negative
A questo punto importiamo in R la lista di parole positive e negative:

hu.liu.pos = scan('Z:/sentiment/positive-words.txt', what='character', comment.char=';') hu.liu.neg = scan('Z:/sentiment/negative-words.txt', what='character', comment.char=';')
Ora abbiamo due oggetti chiamati hu.liu.pos e hu.liu.neg che rappresentano rispettivamente la lista di parole positive e negative. Supponiamo di voler aggiungere alla lista di parole di negative i termini epicfail e l'acronimo wtf. Useremo l'istruzione:

neg.words = c(hu.liu.neg, 'wtf', 'epicfail')

Analogamente, si possono aggiungere termini alla lista di parole positive:

pos.words = c(hu.liu.pos, 'upgrade')

D'ora in poi useremo le nostre liste di parole chiamate neg.words e pos.words.
In pratica, per ogni tweet estratto conteremo quante parole positive X sono presenti e quante parole negative Y sono presenti. Quindi calcoliamo X-Y. Se X-Y è lo score del tweet. Valori positivi denotato un'opinione positiva, mentre negativi l'opposto. Valori prossimi allo zero denotano neutralità. Attenzione: questo rappresenta un approccio semplice alla sentiment analysis, approcci più complessi sono possibili.

Continua il laboratorio

Analizzare le liste di tweet

Credits

Il laboratorio è stato realizzato da:

Andrea Marin (marin _at_ dais.unive.it)

LabSIT@DAIS

Università Ca' Foscari

Livelli

Usare R per semplici analisi di Twitter

Lista delle parole

Continua il laboratorio

Credits

florida web design