Eccoci di nuovo con un nuovo aggiornamento, pieno di novità e di progressi nell'ambito dell'intelligenza artificiale. Da questo mese, cercherò di presentare le notizie in modo più ordinato, dividendole in sezioni che conto di conservare nei numeri successivi.
Una novità sensazionale di questo mese è stata l'introduzione del nuovo modello di generazione video Sora da parte di Open AI. Si tratta di un cambiamento epocale secondo tutti gli esperti, sia per il processo di creazione dei video sia per la realistica delle immagini prodotte. Nel sito di Open AI si possono ammirare alcune demo generate da questo modello, che al momento è in grado di creare video fino a un minuto di durata. Come ha affermato Mark Russinovich, con l'arrivo di Sora il mondo non sarà più lo stesso. Da oggi, diventa sempre più arduo riconoscere ciò che è reale da ciò che è sintetizzato.Un'altra notizia importante di questo mese è stato il rilascio di Gemini Ultra 1.0 da parte di Google. Google ha incontrato alcune difficoltà nel presentare questo modello che hanno avuto ripercussioni anche sul valore delle sue azioni in borsa. Tuttavia, Google ha lanciato anche un altro modello, Gemini 1.5, che a mio giudizio è molto più rivoluzionario di Gemini stesso perché estende la finestra di contesto da alcune centinaia di K dei modelli attuali a 1M con 10M in test. Questo cambia radicalmente le tecniche che si possono applicare con questo modello generativo. Ad esempio, possiamo dare al modello un video intero senza doverlo dividere in pezzi.
Microsoft sta sfruttando sempre più l'intelligenza artificiale generativa per applicazioni aziendali concrete. Questo mese ha lanciato Copilot for Power BI in Global Preview, che vuole rivoluzionare il modo in cui creiamo le dashboard e che potrebbe cambiare le prospettive di chi ha fondato una carriera solo sulla realizzazione di dashboard Power BI. Ha anche lanciato Copilot for Finance in private preview, accessibile solo a un numero limitato di clienti. Questo segue il lancio di Copilot for Sales e Copilot for Service. Copilot for Finance è pensato per le funzioni finance all'interno delle aziende e Microsoft sostiene che, secondo i test interni effettuati, Copilot for Finance riduca la durata dei task da due ore a solo 20 minuti.
Per quanto riguarda Azure OpenAI, la piattaforma alla base delle nostre soluzioni di generativa, questo mese ci sono due annunci molto rilevanti. Da una parte, l'acceleratore Chat with your own data è generally available a livello mondiale. Dall’altra, il lancio delle Assistants API in public preview. Le Assistants API sono quelle che permettono la creazione dei GPTs in OpenAI. Abilitano e consentono una serie di attività specifiche con azioni esterne. Coordinate da un motore come Semantic Kernel o Autogen facilitano molto la realizzazione dei propri Copilot.
Penso che una delle sfide future (e sicuramente la più rilevante) sia quella che riguarda i robot umanoidi, che derivano dai nuovi modelli generativi capaci di interagire con l'essere umano, di ragionare e di integrare sempre meglio le capacità visive. In questo senso è interessante notare come Figure, una delle società leader in questo ambito, stia raccogliendo quasi 700 milioni di $ di investimenti e anche la stretta collaborazione con Open AI. Credo che il fine ultimo della generativa e degli LLM, con la loro competenza conversazionale, sia quello di creare robot umanoidi che avranno molte funzioni diverse.
I modelli basati su agenti sono tra le tendenze emergenti nell'ingegneria dei sistemi di intelligenza artificiale generativa. Come nel software, dove la complessità crescente ha reso inadeguato il modello monolitico e ha favorito l'adozione di un modello a servizi e poi a microservizi, anche per questi sistemi di intelligenza artificiale il modello monolitico presenta diverse criticità. Per questo motivo, la transizione verso un'architettura a servizi e microservizi sta diventando necessaria. OpenAI ha creato due tipi di agenti. Uno per la capacità di operare su dispositivi. In sostanza, questi agenti possono scrivere e cliccare al posto nostro in un sistema operativo moderno. L'altro è un web agent che permette di interagire con dati online e di fare ad esempio prenotazioni direttamente sui siti web. La caratteristica, in questo caso, è che non vengono usate le api di questi siti web, ma i web form con cui interagisce un umano.
Un altro aspetto da considerare è l'obiettivo evolutivo di aggiungere dei sistemi di memoria per rendere la conversazione sempre più naturale e simile a quella umana. OpenAI ha sviluppato un sistema che permette di memorizzare le informazioni in modo trasversale alle diverse chat che un utente ha effettuato. In questo modo, il modello imparerà a conoscere le nostre relazioni, il nostro lavoro, le nostre abitudini, le nostre preferenze, trasformando l’interazione sempre più in una conversazione con una "persona" che ci conosce. Si tratta di una sfida tecnologica che mira a ridurre il divario tra l'interazione conversazionale e quella tra umani. Possiamo immaginare che l'intelligenza artificiale arrivi a chiederci come stanno il nostro partner o i nostri figli, se nelle nostre chat o altro abbiamo cercato informazioni mediche. D'altra parte, ovviamente, si pone tutta una questione riguardante la privacy e la protezione dei nostri dati.
Questo mese ci sono stati diversi rilasci importanti. Per esempio, Google ha presentato Gemma, una nuova famiglia di modelli open source che si aggiungono a quelli closed source come Gemini. Questi nuovi modelli, essendo meno complessi con parametri tra i due billion e 7 billion, offrono opportunità agli sviluppatori di avere maggiore flessibilità per creare soluzioni ad hoc senza dipendere da modelli closed source su cloud.
Mistral, una Farm francese di intelligenza artificiale, ha rilasciato un modello di grande dimensione chiamato Mistral large model. Oltre a questo, ha presentato un nuovo chatbot 'Le chat', che però presenta alcune limitazioni. Tuttavia, questi annunci di Mistral sono rilevanti perché dimostrano che l'Europa può contribuire a creare modelli, oltre al fatto che Mistral ha fatto un accordo con Microsoft per poter far funzionare il proprio modello su Azure come un servizio.
La fintech svedese Klarna ha recentemente pubblicato uno studio sull'uso dell'intelligenza artificiale e i suoi effetti sul service desk. Klarna afferma che nel 2024 genererà profitti per 40 milioni di euro, grazie a una riduzione di costi l'utilizzo dell'intelligenza artificiale nei propri servizi di supporto. La conseguenza negativa è che questa soluzione sostituirà il lavoro equivalente di 700 persone. Lo studio ha anche rivelato un dato molto interessante, per il quale il tempo di risoluzione delle richieste è diminuito da una media di 11 minuti a 2 minuti. Questo tipo di Bot è disponibile 24 ore su 24 e 7 giorni su 7 ed è capace di parlare 35 lingue diverse.
Infine, Adobe ha presentato project Music. Si tratta di un software basato sull'intelligenza artificiale generale, che potremmo definire come un Photoshop per la musica, capace di creare e modificare contenuti musicali con l'aiuto dell'AI.
Una questione da tenere in considerazione è quella relativa alla normativa e alla conformità sulla privacy, dal momento che l'autorità italiana per la protezione dei dati ha aperto un'indagine sulle modalità di trattamento dei dati da parte di OpenAI. Non penso che sia un motivo di preoccupazione, dato che si sa che l'autorità italiana è molto rigorosa in un contesto europeo già severo, e seguiremo lo sviluppo di questa indagine. La mia opinione? Che si dia troppa importanza alla salvaguardia della privacy a scapito dell'innovazione, con eccesso di formalismi e burocrazia, senza comprendere bene la tecnologia e senza valutare i reali rischi delle possibili violazioni con i vantaggi delle nuove soluzioni, essenziali per la crescita del Paese. Dal canto suo OpenAI, come avevamo raccontato il mese scorso, ha stabilito la propria sede europea in Irlanda anche per rispettare i requisiti del GDPR.
Parlando invece di approcci forse più aperti verso l'innovazione, il governo britannico ha istituito e lanciato un forum per coinvolgere tutte le imprese che realizzano algoritmi di intelligenza artificiale nel Regno Unito in una comunità. L'obiettivo è incentivare l’utilizzo dell'intelligenza artificiale nelle aziende britanniche, tra le quali uno studio recente ha mostrato che solo il 10% sta usando l'intelligenza artificiale.
Vorrei citare un articolo che mostra come il mondo accademico possa ancora fare una grande differenza, anche senza grandi risorse economiche. Infatti, è stato pubblicato su arXiv un nuovo metodo per migliorare i meccanismi di ragionamento dei modelli LLM. Si chiama self-discover e tramite una tecnica che permette di scomporre e capire atomicamente i task di un processo di ragionamento aumenta le capacità logiche di questi modelli.
Possiamo considerarlo una evoluzione del chain of thought (CoT), che fornisce risultati migliori con molto minor impiego computazionale. Ad esempio, rispetto al CoT migliora le capacità di ragionamento del 32% secondo i benchmark standard, con una necessità computazionale da 10 a 40 volte inferiore. Per i più curiosi ecco il link: https://arxiv.org/abs/2402.03620
Sul fronte dell'innovazione, Groq ha presentato una nuova architettura fondata su Language Processing Unit, che assicura di avere una velocità di esecuzione degli LLM tra 4 e 10 volte più alta rispetto a quella con architettura GPU. Le risposte pressoché immediate aprono nuove possibilità per l'IA e l'esperienza degli utenti, mentre l'efficienza e l'accessibilità delle LPU potrebbero rappresentare un'alternativa alle GPU molto richiesta sul mercato.