Come apprendono le intelligenze artificiali?
Una ricerca a cui hanno partecipato due ricercatori del Dipartimento di Fisica di UniTo ha indagato i metodi di apprendimento delle reti neurali profonde che stanno alla base del funzionamento delle intelligenze artificiali
Sulla prestigiosa rivista internazionale Nature Machine Intelligence è stato recentemente pubblicata una ricerca innovativa dal titolo “Inversion dynamics of class manifolds in deep learning reveals tradeoffs underlying generalization”. Lo studio, in copertina sull’ultimo numero della rivista, è stato condotto da Matteo Osella e Filippo Valle del Dipartimento di Fisica dell’Università di Torino, in collaborazione con ricercatori degli atenei di Milano e Parma. La ricerca ha indagato i metodi di apprendimento automatico delle reti neurali profonde, fondamentali per il funzionamento di tutte quelle tecnologie che utilizzano l’intelligenza artificiale, dagli assistenti vocali agli smartphone, dai chatbot di ultima generazione (come ChatGPT) fino agli elettrodomestici.
Per ottenere un errore di addestramento basso in un problema di classificazione, i vari strati di una rete neurale devono organizzare i dati in modo da distinguere facilmente le diverse categorie. I ricercatori hanno mostrato che l’addestramento di una rete realizza questa distinzione in un modo inatteso. Dopo una fase iniziale di separazione rapida, si osserva un processo più lento che porta a un'integrazione maggiore tra le categorie. L'errore di addestramento a cui questa transizione, o “inversione”, avviene rimane stabile in diverse condizioni, suggerendo come questo dipenda principalmente dalla struttura dei dati e solo in misura molto limitata dall'architettura della rete. In particolare, questa inversione è determinata da alcuni elementi chiave nel set di addestramento (“stragglers”), e questi elementi sono cruciali per la capacità della rete di generalizzare bene a nuovi dati.
"In questi anni – ha spiegato Matteo Osella - le applicazioni basate sull’intelligenza artificiale sono diventate pervasive. Nonostante questo enorme successo, la nostra comprensione fondamentale di come questi algoritmi funzionano è ancora molto parziale. L’approccio e gli strumenti della fisica teorica possono essere cruciali nel colmare questo divario tra teoria e pratica, identificando gli ingredienti necessari ed universali per l’apprendimento automatico. Questo studio è un piccolo passo in questa direzione”.