Usare R per semplici analisi di Twitter

 

 

Lista delle parole

  1. In questo esempio utilizzeremo la lista delle parole che caratterizzano i post positivamente o negativamente in lingua inglese sviluppata presso il Department of Computer Science del University of Illinois at Chicago. Il lavoro di classificazione è stato condotto sotto la direzione del prof. Bing Liu.
  2. Per scaricare i file premere col pulsante destro sul link e scegliere di salvare il file nella cartella z:\sentiment
  3. A questo punto importiamo in R la lista di parole positive e negative:

    hu.liu.pos = scan('Z:/sentiment/positive-words.txt', what='character', comment.char=';')
    hu.liu.neg = scan('Z:/sentiment/negative-words.txt', what='character', comment.char=';')

     
  4. Ora abbiamo due oggetti chiamati hu.liu.pos e hu.liu.neg che rappresentano rispettivamente la lista di parole positive e negative. Supponiamo di voler aggiungere alla lista di parole di negative i termini epicfail e l'acronimo wtf. Useremo l'istruzione:

    neg.words = c(hu.liu.neg, 'wtf', 'epicfail')

    Analogamente, si possono aggiungere termini alla lista di parole positive:

    pos.words = c(hu.liu.pos, 'upgrade')

    D'ora in poi useremo le nostre liste di parole chiamate neg.words e pos.words.
  5. In pratica, per ogni tweet estratto conteremo quante parole positive X sono presenti e quante parole negative Y sono presenti. Quindi calcoliamo X-Y. Se X-Y è lo score del tweet. Valori positivi denotato un'opinione positiva, mentre negativi l'opposto. Valori prossimi allo zero denotano neutralità. Attenzione: questo rappresenta un approccio semplice alla sentiment analysis, approcci più complessi sono possibili.

 

Continua il laboratorio

Analizzare le liste di tweet

 

Credits

Il laboratorio è stato realizzato da:
  • Andrea Marin (marin _at_ dais.unive.it)