Dal 4 all’8 luglio si è tenuta l’International Summer School of Artificial Intelligence 2022 (AI-DLDA 2022), organizzata dall’Università di Udine e da Industry Platform 4 FVG e per la quale noi di Modic abbiamo sviluppato il sito internet.
L’evento si tiene ogni anno e dura cinque giornate, durante le quali, attraverso lezioni e workshop, docenti di fama internazionale presentano lo stato dell’arte nel campo dell’intelligenza artificiale, da computer vision a robotica e natural language processing.
La Summer School è un’ottima opportunità per confrontarsi con studenti, ricercatori e professionisti provenienti da varie parti d’Italia e del mondo e con diversi background accademici e professionali, come AI, health data science, fisica e meccatronica.
Elisa Del Frari, data scientist di Modic, ha partecipato in presenza a questa quinta edizione e le abbiamo chiesto un feedback. Ecco cosa ci ha detto della sua esperienza.
Il programma era molto ricco e offriva un’ampia panoramica sui progressi in campo di intelligenza artificiale e sulle sue applicazioni industriali.
In particolare, la lezione “Building Language Models for Entities Extraction and Text Generation” dei docenti Giuseppe Serra & Simone Scarboro dell’Università di Udine, ha trattato un argomento molto vicino agli strumenti e modelli di AI che utilizziamo a Modic.
Il workshop consisteva in una sessione pratica durante la quale utilizzare Python per named entity recognition (NER), cioè per identificare e classificare, all’interno di documenti di testo, entità come persone, luoghi, organizzazioni e date.

Per raggiungere tale obiettivo, il modello scelto è stato BERT (Bidirectional Encoder Representations from Transformers), un modello linguistico creato da Google nel 2018 e basato sull’architettura dei transformers. Nella sua versione base, BERT è composto da 12 strati di encoder e 110 milioni di parametri.
Il modello è in grado, a partire da una frase di input, di creare:
- un embedding per ogni parola, che varia in base al contesto. Per esempio, la parola apple assume due rappresentazioni numeriche diverse a seconda che si riferisca all’azienda o al frutto;
- un embedding che contiene il significato della frase.
Una volta ottenuti gli embedding, questi possono essere utilizzati per delle task specifiche, come question answering, sentiment analysis o named entity recognition aggiungendo un ulteriore layer al modello. Nel caso di task di NER, gli embedding di ogni singola parola vengono classificati in base all’entità a cui corrispondono (eg. luoghi, persone, organizzazioni,..).
L’immagine qui sotto raffigura gli step necessari invece per la task di spam detection: una frase viene processata con BERT e poi l’embedding della frase intera viene utilizzato per classificare questa in spam o non spam.

La seconda parte del workshop consisteva nell’utilizzo del modello generativo GPT-2 (Generative Pre-trained Transformer 2), ideato da OpenAI nel 2019, per creare la trama di un film. Anche questo modello si basa sull’architettura dei transformers, ma, a differenza di BERT, è composto da decoder (12 nella versione small). GPT-2 small contiene 117 milioni di parametri, mentre la sua versione successiva (GTP-3), uscita nel 2020, ne contiene ben 175 miliardi.
GPT-2 è stato addestrato per la task di next token prediction: a partire da una frase incompleta è in grado di indovinare la parola successiva, come raffigurato nell’immagine sottostante. La nuova parola viene in seguito aggiunta alla frase, la quale viene utilizzata come nuovo input per il modello in modo da prevedere la parola seguente, e così via.

Il workshop è stato un’ottima opportunità per approfondire le conoscenze teoriche e pratiche su questi potenti e innovativi modelli linguistici.
Spunti interessanti per il lavoro che facciamo a Modic sono arrivati anche dalle lezioni “Multi-Robot Coordination” del professore Bernhard Rinner, dell’università di Klagenfurt e “Graph-theoretic Methods in Computer Vision: Recent Advances” del professore Marcello Pelillo dell’università Ca’ Foscari di Venezia.
Il prof. Rinner ha trattato l’argomento di come coordinare i robot per evitare collisioni e massimizzare l’efficienza energetica, mentre il prof. Pelillo ha dimostrato come segmentare le immagini utilizzando un algoritmo di clustering che non necessita del numero di cluster come input.
Insomma, tantissimi gli argomenti all’avanguardia ed Elisa già non vede l’ora di partecipare alla prossima edizione!