Usare R per semplici analisi di Twitter
Lista delle parole
- In questo esempio utilizzeremo la lista delle parole che caratterizzano i post positivamente o negativamente in lingua inglese sviluppata presso il Department of Computer Science del University of Illinois at Chicago. Il lavoro di classificazione è stato condotto sotto la direzione del prof. Bing Liu.
- Per scaricare i file premere col pulsante destro sul link e scegliere di salvare il file
nella cartella
z:\sentiment
- Scarica la lista delle parole positive
- Scarica la lista delle parole negative
- A questo punto importiamo in R la lista di parole positive e negative:
hu.liu.pos = scan('Z:/sentiment/positive-words.txt', what='character', comment.char=';')
hu.liu.neg = scan('Z:/sentiment/negative-words.txt', what='character', comment.char=';')
- Ora abbiamo due oggetti chiamati
hu.liu.pos
ehu.liu.neg
che rappresentano rispettivamente la lista di parole positive e negative. Supponiamo di voler aggiungere alla lista di parole di negative i termini epicfail e l'acronimo wtf. Useremo l'istruzione:
neg.words = c(hu.liu.neg, 'wtf', 'epicfail')
Analogamente, si possono aggiungere termini alla lista di parole positive:
pos.words = c(hu.liu.pos, 'upgrade')
D'ora in poi useremo le nostre liste di parole chiamateneg.words
epos.words
. - In pratica, per ogni tweet estratto conteremo quante parole positive X sono presenti e quante parole negative Y sono presenti. Quindi calcoliamo X-Y. Se X-Y è lo score del tweet. Valori positivi denotato un'opinione positiva, mentre negativi l'opposto. Valori prossimi allo zero denotano neutralità. Attenzione: questo rappresenta un approccio semplice alla sentiment analysis, approcci più complessi sono possibili.
Continua il laboratorio
Credits
Il laboratorio è stato realizzato da:- Andrea Marin (marin _at_ dais.unive.it)