Turnitin afferma che il suo rilevatore di trucchi basato sull'intelligenza artificiale non è sempre affidabile

Questo articolo è un'anteprima della newsletter di The Tech Friend. Iscriviti qui per riceverlo nella tua casella di posta ogni martedì e venerdì.

Risulta che non possiamo rilevare in modo affidabile la scrittura da programmi di intelligenza artificiale come ChatGPT. Questo è un grosso problema, soprattutto per gli insegnanti.

Ancora peggio, gli scienziati affermano sempre più spesso che l’utilizzo di software per individuare con precisione l’intelligenza artificiale potrebbe essere semplicemente impossibile.

Le ultime prove: Turnitin, una grande azienda di software educativo, ha affermato che il rilevatore di imbrogli IA utilizzato su oltre 38 milioni di saggi degli studenti da aprile presenta più problemi di affidabilità di quanto inizialmente suggerito. Turnitin, che assegna un punteggio percentuale "generato dall'intelligenza artificiale" a ciascun compito dello studente, sta apportando alcune modifiche, inclusa l'aggiunta di nuovi avvertimenti sui tipi di risultati limite più soggetti a errori.

Ho scritto per la prima volta del rilevatore di intelligenza artificiale di Turnitin questa primavera, quando le preoccupazioni sugli studenti che utilizzavano l'intelligenza artificiale per imbrogliare hanno spinto molti insegnanti a chiedere a gran voce modi per scoraggiarlo. A quel tempo, la società aveva affermato che la sua tecnologia aveva un tasso inferiore all’1% del tipo di errore più problematico: i falsi positivi, in cui la scrittura di veri studenti viene erroneamente contrassegnata come imbroglio. Ora, Turnitin afferma che a livello frase per frase – una misura più ristretta – il suo software segnala erroneamente il 4% della scrittura.

La mia indagine ha inoltre rilevato che i falsi rilevamenti rappresentavano un rischio significativo. Prima del lancio, ho testato il software Turnitin con veri scritti di studenti e con saggi che gli studenti volontari hanno contribuito a generare con ChatGPT. Turnitin ha identificato oltre la metà dei nostri 16 campioni, almeno in parte in modo errato, affermando che il saggio completamente scritto da umani di uno studente è stato scritto in parte con l'intelligenza artificiale.

La posta in gioco nel rilevamento dell’intelligenza artificiale può essere particolarmente alta per gli insegnanti, ma non sono gli unici a cercare modi per farlo. Lo stesso vale per le aziende di sicurezza informatica, i funzionari elettorali e persino i giornalisti che hanno bisogno di identificare cosa è umano e cosa non lo è. Anche tu potresti voler sapere se quella vistosa email di un capo o di un politico è stata scritta dall'intelligenza artificiale.

Negli ultimi mesi sul web si sono verificati un'ondata di programmi di rilevamento dell'intelligenza artificiale, tra cui ZeroGPT e Writer. Anche OpenAI, la società dietro ChatGPT, ne realizza uno. Ma c’è un crescente numero di esempi di questi rilevatori che sbagliano, incluso uno che sosteneva che il prologo della Costituzione fosse stato scritto dall’intelligenza artificiale. (Non molto probabile, a meno che ora non sia possibile anche viaggiare nel tempo?)

Il punto per te: fai attenzione a trattare qualsiasi rilevatore di intelligenza artificiale come un fatto. In alcuni casi in questo momento, è poco meglio di un'ipotesi casuale.

Un tasso di errore del 4 o anche dell’1% potrebbe sembrare basso, ma ogni falsa accusa di imbroglio può avere conseguenze disastrose per uno studente. Da quando ho pubblicato il mio articolo di aprile, ho ricevuto appunti da studenti e genitori sconvolti per quelle che secondo loro erano false accuse. (La mia email è ancora aperta.)

In un lungo post sul blog della scorsa settimana, Annie Chechitelli, Chief Product Officer di Turnitin, ha affermato che l'azienda vuole essere trasparente riguardo alla sua tecnologia, ma non si è tirata indietro dall'implementarla. Ha affermato che per i documenti che il suo software di rilevamento ritiene contengano oltre il 20% di scrittura AI, il tasso di falsi positivi per l’intero documento è inferiore all’1%. Ma non ha specificato quale sia il tasso di errore nel resto del tempo: per i documenti che il suo software ritiene contengano meno del 20% di scrittura AI. In questi casi, Turnitin ha iniziato a mettere un asterisco accanto ai risultati "per richiamare l'attenzione sul fatto che il punteggio è meno affidabile".

"Non possiamo mitigare completamente il rischio di falsi positivi data la natura della scrittura e dell'analisi dell'intelligenza artificiale, quindi è importante che gli educatori utilizzino il punteggio dell'intelligenza artificiale per avviare un dialogo significativo e di impatto con i loro studenti in tali casi", ha scritto Chechitelli.

La domanda chiave è: quanto errore è accettabile in un rilevatore AI?

Una nuova ricerca preliminare del professore di informatica Soheil Feizi e colleghi dell’Università del Maryland rileva che nessun rilevatore di intelligenza artificiale disponibile al pubblico è sufficientemente affidabile negli scenari pratici.