AGORA' di CircolarMente: Ancora a proposito di "bufale" (e di "linguaggio")

Ancora a proposito di “bufale” (e di “linguaggio”):

sarà la Rete a salvarci dalla Rete?

Un algoritmo per controllare la credibilità dei tweet

Articolo di Matthew Hutson pubblicato su Scientific American il 03/02/2017. Traduzione ed editing a cura di Le Scienze.

Di fronte al proliferare di false notizie che si diffondono viralmente sui social network, un gruppo di ricercatori ha sviluppato un algoritmo che sulla base delle parole contenute nei messaggi di Twitter riesce a valutarne con buona approssimazione la credibilità. Implementato sul social media potrebbe allertare l'utente della scarsa credibilità di un tweet prima che la diffonda ulteriormente. Secondo un sondaggio realizzato nel 2016 dal Pew Research Center, il 62 per cento degli americani legge le notizie sui social media. Questa statistica aiuta a spiegare l'onnipresenza delle notizie fasulle: quando le informazioni viaggiano attraverso i social network, i normali filtri editoriali non hanno alcuna possibilità di separare il tweet di qualità dalla bufala. Lo sviluppo di strumenti che aiutino a fermare la diffusione di menzogne e false voci richiederà la collaborazione di informatici, linguisti, psicologi e sociologi. Un nuovo studio, che sarà presentato questo mese in una conferenza dell'Association for Computing Machinery, ha analizzato milioni di tweets, rivelando le parole e le frasi che sono considerate più credibili. Tanushree Mitra, esperta di informatica del Georgia Institute of Technology e prima autrice dello studio, dice che si è interessata al problema quando nel 2011 fu ucciso Osama bin Laden e circolarono numerosi messaggi su se e come fosse veramente morto. Molti sentirono parlare per la prima volta dell'uccisione su Twitter. "Sui social media questo tipo di notizie dell'ultim'ora e le relative speculazioni circolano molto prima che la notizia raggiunga i mezzi di informazione tradizionali", dice Mitra. Lei e i suoi collaboratori al Georgia Tech hanno voluto sviluppare dei sistemi automatizzati per valutare se gli eventi sono realmente accaduti, basandosi esclusivamente sul modo in cui le persone ne stavano parlando. Questi strumenti possono aiutare a rilevare voci false prima che si diffondano troppo. I ricercatori hanno costruito un database di 1377 eventi avvenuti tra ottobre 2014 e febbraio 2015 e dei tweet associati a essi. Per assegnare un punteggio di "credibilità" a ogni evento, i partecipanti allo studio leggevano alcuni tweet e, in base a ciò che sapevano o a una ricerca on- line, ne valutavano la “correttezza” dell'evento riferito. A seconda della percentuale di persone che classificavano gli eventi come "certamente corretti", questi venivano stati collocati in quattro categorie: credibilità massima, credibilità elevata, credibilità moderata e scarsa credibilità. Gli eventi scarsamente credibili includevano un giocatore di football morto dopo un placcaggio particolamente duro, e la polizia che spruzzava pepe su una folla. (Le valutazioni di accuratezza non erano perfette: la polizia aveva effettivamento usato il pepe contro la folla)
I ricercatori hanno poi analizzato statisticamente i 66 milioni di tweet relativi agli eventi, cercando correlazioni tra i punteggi di credibilità e alcune caratteristiche, come le parole che esprimono incertezza o un'emozione. Nello studio, non ancora pubblicato, elencano diversi indizi utili: gli eventi "credibili" avevano più probabilità di essere descritti su Twitter con termini come appeared, depending e guessed (sembra, stando a, si suppone), mentre gli eventi "incredibili" erano accompagnati da altri termini, come indicates, certain level e dubious (indica, in certa misura, dubbio). Alcuni dei migliori “barometri” erano vocaboli che esprimevano un giudizio: vibrant, unique e intricate (vivace, unico e complesso) lasciavano prevedere un'alta credibilità, mentre pry, awfulness e lacking (indagare, orrore e privo) suggerivano una scarsa credibilità. (Stranamente, darn (maledizione) era associato a un'elevata credibilità, damn (dannazione) a una bassa.) E anche se termini amplificativi come without doubt (senza dubbio) e undeniable (innegabile) facevano prevedere una scarsa credibilità nei tweet originali, ne prevedevano una alta nei retweet. Al di là di specifiche parole, lunghe citazioni nei retweet suggeriscono una scarsa credibilità, forse perché chi ripubblica i tweet di un altro è riluttante a prendersi la responsabilità dell'affermazione. Anche un elevato numero di retweet è stato associato a una scarsa credibilità. (Queste sono tutte correlazioni: i ricercatori non sanno, per esempio, se il numero di retweet ha influenzato la valutazione dei partecipanti allo studio, o se retweet e valutazioni dipendevano, in modo indipendente tra loro, dalle caratteristiche del evento supposto.)
I ricercatori hanno anche testato la capacità del loro modello di prevedere la credibilità di un evento, combinando indicatori come quelli citati.)Se l'algoritmo procedesse a caso, darebbe la risposta giusta il 25 per cento delle volte; se indovinasse sempre i casi di “credibilità elevata”- la categoria con il maggior numero di eventi – sarebbe nel giusto il 32 per cento delle volte. Ma l'algoritmo ha funzionato molto meglio di così, raggiungendo una correttezza del 43 per cento. Se poi si assegna all'algoritmo mezzo punto quando un'attribuzione è solo leggermente errata (per esempio, attribuendo “massima credibilità” a un evento con “credibilità elevata”), la precisione dell'algoritmo arriva al 65 per cento.
I ricercatori sperano di migliorare le prestazioni, combinando spunti linguistici con elementi come l'autore del tweet o i link citati. In un lavoro preliminare, Mitra ha dimostrato che le storie provenienti da una sola persona tendono ad avere scarsa credibilità.
I ricercatori considerano il loro modello uno strumento come una sorta di "occhio preliminare", che attiri l'attenzione di giornalisti e fact checkers su resconti che potrebbero interessarli, per occuparsene o per smentirli. Secondo Robert Mason - un ricercatore dell'Università di Washington che ha studiato i messaggi su Twitter a proposito dell'attentato alla maratona di Boston, ma non ha partecipato allo studio di Mitra - uno strumento del genere potrebbe anche aiutare i primi soccorritori a decidere di quali informazioni fidarsi durante un emergenza. Un'altra possibilità, dice Mason, è inserire dentro Twitter o Facebook sistemi di alllerta che individuino quando una persona sta per condividere storie potenzialmente false, chiedendo se è sicura di volerlo fare, in modo tale da “rallentare la facilità con cui diffondiamo le informazioni”. Tuttavia, fermare la diffusione di notizie false sarà difficile anche ricorrendo all'intelligenza artificale. Mason ricorda l'adagio secondo cui una bugia può viaggiare per mezzo mondo prima che la verità si metta le scarpe. Spesso la disinformazione è più avvincente della verità. E i giornalisti sono spinti a riferire rapidamente le notizie. In ogni caso, spesso la gente ignora l'autorevolezza della fonte. "In un'epoca di social media e di informazioni in rapidissimo movimento," dice Mason, "che cos'è una fonte autorevole? Non abbiamo più un Walter Cronkite o un Edward R. Murrow che ci dicano 'Ecco come stanno le cose'. Abbiamo una molteplicità di voci che dicono che le cose stanno così. E quindi tocca a noi scegliere".

venerdì 10 febbraio 2017

Ancora a proposito di "bufale" (e di "linguaggio")

Nessun commento:

Posta un commento