Usare R per semplici analisi di Twitter
Lista delle parole
- In questo esempio utilizzeremo la lista delle parole che
caratterizzano i post positivamente o negativamente in lingua inglese
sviluppata presso il Department of
Computer Science del University of
Illinois at Chicago. Il lavoro di classificazione è stato
condotto sotto la direzione del prof. Bing Liu.
- Per scaricare i file premere col pulsante destro sul link e scegliere di salvare il file
nella cartella
z:\sentiment
- A questo punto importiamo in R la lista di parole positive e negative:
hu.liu.pos = scan('Z:/sentiment/positive-words.txt', what='character', comment.char=';')
hu.liu.neg = scan('Z:/sentiment/negative-words.txt', what='character', comment.char=';')
- Ora abbiamo due oggetti chiamati
hu.liu.pos e hu.liu.neg che
rappresentano rispettivamente la lista di parole positive e negative. Supponiamo di voler aggiungere
alla lista di parole di negative i termini epicfail e l'acronimo wtf. Useremo
l'istruzione:
neg.words = c(hu.liu.neg, 'wtf', 'epicfail')
Analogamente, si possono aggiungere termini alla lista di parole positive:
pos.words = c(hu.liu.pos, 'upgrade')
D'ora in poi useremo le nostre liste di parole chiamate neg.words e pos.words.
- In pratica, per ogni tweet estratto conteremo quante parole positive X sono presenti e quante
parole negative Y sono presenti. Quindi calcoliamo X-Y. Se X-Y è lo score del tweet. Valori
positivi denotato un'opinione positiva, mentre negativi l'opposto. Valori prossimi allo zero denotano
neutralità. Attenzione: questo rappresenta un approccio semplice alla sentiment analysis,
approcci più complessi sono possibili.
Continua il laboratorio
Analizzare le liste di tweet
Credits
Il laboratorio è stato realizzato da:
- Andrea Marin (marin _at_ dais.unive.it)