Negli ultimi anni l’utilizzo dell’intelligenza artificiale in diversi ambiti accademici è diventato sempre più diffuso, soprattutto nella produzione scientifica, dove sta modificando il modo di approcciarsi alla scrittura di un paper e non solo. Questi strumenti, nati per supportare ricercatori e professionisti, vengono talvolta utilizzati in modo azzardato e senza piena consapevolezza, creando dubbi sul loro reale valore e sui loro limiti. Capire quindi dove finisce il supporto e dove inizia l’abuso diventa essenziale per chi lavora nel mondo accademico e proprio di questo si è parlato nell’ultimo incontro di Caffè Scienza, dove la professoressa Marcella Cornia ha illustrato al pubblico che cosa sia realmente l’intelligenza artificiale, invitando a riflettere sull’ uso consapevole dell’IA nella produzione scientifica.

Marcella Cornia è Professoressa Associata presso il Dipartimento di Educazione e Scienze Umane dell’Università degli Studi di Modena e Reggio Emilia, dove si occupa di Computer Vision e Intelligenza Artificiale. Nel 2020 ha ricevuto il premio Giovani Ricercatori nella categoria “Intelligenza Artificiale e Big Data” dal Gruppo 2003 per la Ricerca Scientifica, e nel 2021 e 2022 è stata premiata rispettivamente dall’Associazione Italiana per la Computer Vision, Pattern Recognition e Machine Learning e dall’European Computer Vision Association per la miglior tesi di dottorato italiana ed europea nell’ambito della Computer Vision. Marcella Cornia fa parte di AImageLab, un laboratorio di ricerca nel Dipartimento di Ingegneria “Enzo Ferrari” fondato più di vent’anni fa da Rita Cucchiara, attuale rettrice di UNIMORE. Il laboratorio nacque prima come centro dedicato alla computer vision, una sotto area dell’intelligenza artificiale che si occupa di analisi automatica delle immagini e della loro interpretazione. Successivamente, nel corso degli anni, il laboratorio si è evoluto, coprendo anche l’ambito dell’intelligenza artificiale generativa e del Language modelling. AImageLab conta più di cinquanta persone al suo interno tra professori, ricercatori e dottorandi, impegnati in un’ampia varietà di progetti legati all’IA e la professoressa Cornia, in particolare, si occupa di intelligenza artificiale generativa sia visuale che testuale.

L’evoluzione dell’intelligenza artificiale è un fenomeno molto recente: fino a due o tre anni fa i modelli di IA si limitavano a comprendere e interpretare contenuti esistenti, ovvero a riconoscere una scena in un’immagine, a tradurre un testo, oppure generare raccomandazioni basate sul gusto degli utenti, tuttavia, non erano però in grado di creare nuovi contenuti. Oggi, invece, quando si parla di intelligenza artificiale si pensa immediatamente a ChatGPT e, più in generale, ai sistemi generativi, quindi non più un’IA “descrittiva”, ma un’IA capace di produrre testi, immagini, video e audio con una qualità che fino a pochi anni fa era impensabile. In particolare, l’intelligenza artificiale generativa lavora a partire da un prompt, che di solito è un testo ma può anche essere un’immagine, un video o altri tipi di input, e produce un nuovo contenuto coerente con la richiesta. Il funzionamento di questi modelli di linguaggio moderni, con cui interagiamo quotidianamente, si basa su enormi quantità di dati utilizzati nella fase di addestramento. Per ottenere la qualità attuale, sia nella generazione di testi sia di immagini, è necessario un addestramento esteso e costoso, condotto su dataset vasti, spesso raccolti dal web. ChatGPT, Gemini o Claude sono Language model, sistemi informatici progettati per comprendere e generare linguaggio naturale che funzionano grazie allo stesso principio: sono stati esposti a milioni di esempi che gli permettono di imparare a replicare e generalizzare ciò che è contenuto nei dati di addestramento. Alla base di tutti i Language model con cui abbiamo a che fare oggi c’è un’architettura che prende il nome di “modello Transformer”, questa è stata proposta da Google nel 2017 e ha rivoluzionato l’IA moderna, ed è proprio grazie al suo meccanismo di attenzione che, dati sequenziali come i testi, sono processati in modo corretto ed efficace dai modelli di intelligenza artificiale. Da questo meccanismo partono tutti i Language model, tra cui anche GPT. GPT è stato proposto nel 2018 nella sua prima versione con un funzionamento più limitato, semplice e meno efficace rispetto alla versione usata oggi. Inizialmente era in grado “solo” di generare la parola successiva di una frase ma, con l’avanzare dei modelli sia a livello computazionale che aumentando i dati di addestramento, il modello è stato migliorato con delle fasi di addestramento ulteriori, per ottenere qualcosa di più efficace e che si avvicinasse di più a quello che era l’aspettativa degli utenti che lo utilizzavano.

Per arrivare a un modello di ChatGPT capace di conversare, come quello che viene usato oggi, sono stati introdotti tre passaggi: Il primo consiste in una fase di addestramento ulteriore su dati curati; se nella prima fase di addestramento i dati usati erano semplicemente dati “sporchi” scaricati dal web, in questa fase il modello viene rifinito con dataset curati, annotati da persone, con domande e risposte annotate da persone. Con questa fase, il modello risulta migliore di quello precedente, ma non abbastanza. La seconda fase, infatti, prevede un addestramento fatto con feedback generati da persone umane che indicano quale risposta è migliore tra quelle generate. In questo modo si genera un modello intermedio capace di predire una classifica di frasi e risposte che risultano più naturali, utili e coerenti per un utente umano. Infine, questo modello viene utilizzato per migliorare ancora una volta il modello di partenza, in questo modo il modello di linguaggio va a rispondere come effettivamente un utente umano farebbe. Questa fase di addestramento migliora le prestazioni del modello ottenendo un modello in grado di conversare con l’utente con la qualità di generazione che hanno i modelli attuali. ChatGPT non è l’unico modello di linguaggio chiuso, ne esistono altri come Gemini e Claude e, accanto a questi, esistono modelli meno famosi, ma molto utili soprattutto per i ricercatori poiché pubblicamente disponibili o rilasciati in modalità open source come LLaMa, un modello open source sviluppato da Meta. Quando vengono utilizzati modelli come ChatGPT, Gemini e Claude per la generazione di testi, questi possono svolgere diverse funzioni come: generare contenuti, migliorare lo stile linguistico di un testo, riassumere un testo, estrarre delle informazioni o fare una ricerca all’interno di un documento. Per questo, spesso vengono utilizzati anche nel contesto accademico come supporto alla scrittura, per la revisione di un testo, per la scrittura di un testo in inglese, per la sintesi di informazioni contenute in un documento oppure per arricchire la ricerca bibliografica. In tutti questi casi e soprattutto nel contesto accademico è importante però prestare attenzione a come vengono usati e alle risposte che il modello genera. Questo ha comportato infatti nuove responsabilità: se decidiamo di usare l’IA per supportare la scrittura di un articolo scientifico, dobbiamo prestare attenzione all’originalità di ciò che scriviamo, all’accuratezza delle fonti e, in generale, a tutti quegli aspetti che prima erano interamente sotto la nostra responsabilità.

Ogni giorno nascono nuovi strumenti utili per la ricerca bibliografica che possono essere divisi in due macrocategorie: la prima comprende strumenti che aiutano a esplorare la letteratura in modo più efficace, ovvero è possibile porre una domanda di ricerca e lo strumento restituisce una serie di articoli che ritiene essere rilevanti. Gli strumenti sono collegati a sorgenti e a fonti di articoli scientifici reali per evitare la creazione di articoli, autori o bibliografia inventati. La seconda categoria di strumenti serve per organizzare e mappare gli articoli in modo efficace, permettendo di mostrare le connessioni tra articoli e suggerendo articoli simili a quelli che sono stati selezionati in partenza.  Quando utilizziamo l’IA per questi tasking, è sicuramente difficile capire dove fermarci, dove tracciare il confine: è necessario infatti porci delle domande, soprattutto sul tipo di output che viene generato dal modello. Il ricercatore che decide di utilizzare questo strumento deve essere responsabile nel comprendere che cosa lo strumento ha prodotto e prestare attenzione al suo impiego. Inoltre, un aspetto importante da tenere in considerazione, è che l’IA, oltre a generare testi credibili e ben fatti, genera testi che sono facilmente identificabili come generati. Infatti, esistono molti strumenti online che sono in grado di identificare se un testo è generato oppure no valutando caratteristiche linguistiche presenti nei testi e analizzano due aspetti: la perplexity, che misura quanto il testo è prevedibile (tipicamente un modello di IA tende ad avere una sintassi più prevedibile, frasi semplici e strutture ripetitive), e la burstiness, che invece misura la variabilità nella lunghezza e nella connessione delle frasi. Tendenzialmente un modello di IA produce frasi con una lunghezza simile tra loro, mentre un testo umano tende ad avere una variabilità maggiore. Si tratta di modelli che stimano, con una certa probabilità, se il testo è generato e quindi possono commettere errori. Tipicamente l’errore più frequente è il falso negativo, cioè avere un testo generato con IA che lo strumento non riconosce come tale. Il falso positivo, invece, è tecnicamente possibile ma improbabile: è raro che un testo non generato dall’IA venga identificato come testo prodotto da un modello. Viceversa, esistono online degli strumenti che “umanizzano” il testo generato dall’IA, cioè strumenti che, se forniamo loro un testo prodotto da un modello, lo rielaborano in modo tale che sistemi che rilevano se il testo è generato o no, non lo identifichino più come prodotto dall’intelligenza artificiale.

Come è effettivamente cambiato qualcosa negli articoli scientifici? Per spiegare questo, la Professoressa Cornia ha mostrato uno studio in cui sono stati analizzati più di un milione di articoli scientifici, appartenenti a diversi settori scientifici pre e post utilizzo di ChatGPT, in particolare, nello studio veniva stimata la presenza di frasi identificate come generate dall’IA all’interno degli articoli. Il settore della computer science è risultato essere quello che utilizza maggiormente l’intelligenza artificiale per la scrittura scientifica ma anche in altri settori si osserva la stessa tendenza. In generale, in quasi tutti gli ambiti scientifici si registra un incremento significativo dell’uso dell’IA nella redazione degli articoli. Un’altra analisi, sempre all’interno dello stesso studio, mostrava invece l’utilizzo di alcune parole negli abstract dei paper. In particolare, sono state identificate quattro parole che risultano essere quelle cambiate maggiormente nel passaggio dal periodo pre-GPT a quello post-GPT: la frequenza di queste parole è cambiata in modo abbastanza drastico.

Il contributo dell’intelligenza artificiale è visibile non solo nella scrittura dei paper, ma anche nei macro-errori presenti in alcuni articoli mostrati dalla Professoressa Cornia: lavori revisionati, accettati per la pubblicazione e poi successivamente ritirati dalle riviste. Nel primo articolo mostrato, nella prima frase dell’introduzione, era possibile leggere: “Certo, questa è una possibile introduzione per il tuo topic”. L’articolo era stato accettato e pubblicato online nella sua versione revisionata, ma in seguito gli editor si sono accorti del macro-errore e hanno deciso di rimuoverlo. L’altro esempio riguarda l’inizio di un’introduzione di un secondo articolo, in cui l’autore aveva probabilmente ricevuto una richiesta a cui non sapeva rispondere. Il testo diceva: “Mi dispiace, ma non ho accesso a queste informazioni che mi stai chiedendo. Sono un modello di intelligenza artificiale e posso solo fornire informazioni in generale su questo tipo di topic”. Anche questo articolo era stato accettato per la pubblicazione e successivamente rimosso. Ci sono stati altri casi, soprattutto nel 2022-2023, in cui qualcuno ha pubblicato un articolo con ChatGPT come co-autore; questi articoli sono effettivamente usciti e accettati con ChatGPT come co-autore. Dopo un periodo iniziale di confusione, tutte le conferenze e le riviste accademiche hanno iniziato a fornire linee guida per regolare l’utilizzo dell’IA nel contesto scientifico. Più o meno tutti i settori accademici scientifici dispongono oggi di indicazioni sull’uso degli strumenti di intelligenza artificiale nella scrittura accademica, che variano a seconda della rivista e tra i principi comuni, c’è sicuramente il divieto di inserire l’IA tra gli autori di un articolo; inoltre, quasi nessuna rivista vieta l’uso dell’IA come supporto alla scrittura, purché venga dichiarato nel paper.

Oggi l’intelligenza artificiale viene usata soprattutto per la scrittura dell’articolo, ma un aspetto altrettanto importante riguarda la fase successiva: quando l’articolo viene inviato a una conferenza o a un journal, viene assegnato a dei revisori che devono valutarlo e redigere una revisione. Anche questa fase richiede una componente significativa di scrittura e, infatti, l’IA sta iniziando a essere utilizzata per velocizzare il processo. Un revisore potrebbe caricare il paper su ChatGPT e ottenere automaticamente una revisione e anche se questo è tecnicamente possibile, non è eticamente accettabile nella quasi totalità delle sedi scientifiche. Inoltre, gli articoli inviati per la revisione sono coperti da riservatezza, e quindi non dovrebbero essere caricati su strumenti esterni a uso privato. Le linee guida attuali, infatti, scoraggiano esplicitamente l’uso dell’IA per redigere integralmente una revisione; tuttavia, molti la utilizzano comunque ed è spesso evidente.

L’impiego dell’intelligenza artificiale in tutte le fasi della produzione scientifica sta ridefinendo l’approccio stesso alla ricerca, mettendo a disposizione strumenti potenzialmente utili per il lavoro del ricercatore. Tuttavia, questa evoluzione richiede un livello più elevato di rigore, responsabilità e consapevolezza nel loro utilizzo.

Scrivere o generare? Uso e abuso dell’intelligenza artificiale nella produzione scientifica