Perché i rilevatori GPT non sono una soluzione al problema degli imbrogli dell'IA

18 maggio 2023

Questo articolo è stato rivisto in base al processo editoriale e alle politiche di Science X. Gli editori hanno evidenziato i seguenti attributi garantendo al tempo stesso la credibilità del contenuto:

verificato

prestampa

fonte attendibile

correggere le bozze

di Andrew Myers, Università di Stanford

Sulla scia del lancio di alto profilo di ChatGPT, non meno di sette sviluppatori o aziende hanno risposto con rilevatori di intelligenza artificiale. Cioè, dicono, l’intelligenza artificiale è in grado di capire quando il contenuto è stato scritto da un’altra intelligenza artificiale. Questi nuovi algoritmi vengono proposti a educatori, giornalisti e altri come strumenti per segnalare imbrogli, plagio e cattiva informazione o disinformazione.

È tutto molto meta, ma secondo un nuovo articolo degli studiosi di Stanford, c'è solo un problema (molto grosso): i rilevatori non sono particolarmente affidabili. Peggio ancora, sono particolarmente inaffidabili quando il vero autore (un essere umano) non è di madrelingua inglese.

I numeri sono cupi. Sebbene i rilevatori fossero "quasi perfetti" nel valutare i saggi scritti da studenti di terza media nati negli Stati Uniti, hanno classificato più della metà dei saggi TOEFL (61,22%) scritti da studenti inglesi non nativi come generati dall'intelligenza artificiale (TOEFL è un acronimo per il test di inglese come lingua straniera).

La situazione peggiora. Secondo lo studio, tutti e sette i rilevatori di intelligenza artificiale hanno identificato all'unanimità 18 dei 91 saggi degli studenti TOEFL (19%) come generati dall'intelligenza artificiale e ben 89 dei 91 saggi TOEFL (97%) sono stati contrassegnati da almeno uno dei rilevatori.

"Dipende dal modo in cui i rilevatori rilevano l'intelligenza artificiale", afferma James Zou, professore di scienza dei dati biomedici presso la Stanford University, affiliato allo Stanford Institute for Human-Centered AI e autore senior dello studio. "Di solito ottengono un punteggio basato su un parametro noto come 'perplessità', che è correlato alla sofisticatezza della scrittura, qualcosa in cui i non madrelingua tendono naturalmente a seguire le loro controparti nate negli Stati Uniti."

Zou e coautori sottolineano che i parlanti non madrelingua in genere ottengono punteggi più bassi nelle misure di perplessità comuni come la ricchezza lessicale, la diversità lessicale, la complessità sintattica e la complessità grammaticale.

"Questi numeri pongono seri interrogativi sull'obiettività dei rilevatori di intelligenza artificiale e aumentano il rischio che studenti e lavoratori nati all'estero possano essere ingiustamente accusati o, peggio, penalizzati per aver imbrogliato", afferma Zou, evidenziando le preoccupazioni etiche del team.

Zou nota inoltre che tali rilevatori possono essere facilmente sovvertiti da ciò che è noto come "ingegneria tempestiva". Questo termine artistico nel campo dell’intelligenza artificiale significa semplicemente chiedere all’intelligenza artificiale generativa di “riscrivere” i saggi, ad esempio, per includere un linguaggio più sofisticato, dice Zou. Fornisce un esempio di quanto sia facile bypassare i rilevatori. Uno studente che desidera utilizzare ChatGPT per imbrogliare potrebbe semplicemente inserire il testo generato dall'intelligenza artificiale con il messaggio: "Elevare il testo fornito utilizzando il linguaggio letterario".