CoDE, riconoscimento DeepFake visuali: nuovo sistema di intelligenza artificiale

14

Un gruppo di ricercatori dell’Università di Modena e Reggio Emilia ha sviluppato un sistema di intelligenza artificiale – attualmente il piu’ robusto al mondo – per il riconoscimento dei DeepFake visuali. Grazie a un’architettura di apprendimento contrastivo, CoDE distingue le immagini artificiali da quelle reali con una precisione superiore al 97%. Il progetto, presentato alla ECCV 2024 a Milano, si inserisce all’interno del progetto europeo ELSA, European Lighthouse on Secure and Safe AI. I DeepFake, termine che unisce “Deep Learning” e “Fake”, sono immagini, video e suoni generati o manipolati da sistemi di intelligenza artificiale con una precisione tale da renderli difficilmente distinguibili dal reale. Per le immagini, tecnologie come StableDiffusion, MidJourney, DALL-E e molte altre sono ormai alla portata di tutti e consentono di creare contenuti visivi artificiali, spesso utilizzati con fini industriali, medici, artistici o educativi, ma anche con il rischio di manipolare l’informazione in modo ingannevole. Su questo fronte, l’Universita’ degli Studi di Modena e Reggio Emilia si conferma all’avanguardia grazie alla creazione di CoDE (Contrasting Deepfakes Diffusion via Contrastive Learning), un sistema avanzato di intelligenza artificiale che rappresenta attualmente la tecnologia piu’ accurata al mondo per il riconoscimento dei DeepFake. CoDE e’ stato presentato ufficialmente alla European Conference on Computer Vision 2024 a Milano, uno dei piu’ prestigiosi eventi internazionali nel campo della visione artificiale, che ha visto la partecipazione di oltre 5 mila ricercatori da tutto il mondo. Questo sistema e’ stato sviluppato da due Dottorandi di Unimore, Lorenzo Baraldi e Federico Cocchi, sotto la supervisione di Rita Cucchiara e Lorenzo Baraldi (omonimo) del Dipartimento di Ingegneria “Enzo Ferrari” di Modena e di Marcella Cornia del Dipartimento di Educazione e Scienze Umane di Reggio Emilia. Il sistema CoDE si basa su un’architettura di apprendimento contrastivo, addestrata non solo a discriminare immagini vere dalle false, ma anche capace di lavorare su parti di immagini o pixel elaborati da tools di imaging, per rendere il riconoscimento anche robusto alle trasformazioni volontarie o involontarie delle immagini stesse, quando vengono compresse, trasmesse, pubblicate.