È sempre più difficile scrivere in maniera sintetica di intelligenza artificiale. Trovare la sintesi all'interno di 30 giorni in cui le notizie si accavallano, si ripetono e si superano, è davvero complesso.
In questo post voglio soffermarmi su tre eventi principali.
Il primo è l'accordo a livello di Unione Europea sul regolamento per intelligenza artificiale (ne ho parlato in questo articolo). L'entrata in vigore di questo regolamento nel 2024, con un'implementazione graduale nei due anni successivi, rappresenta un arco temporale significativo nell'evoluzione fulminea della tecnologia AI. La questione centrale è bilanciare la salvaguardia dell'innovazione con la necessità di regolamentarla. È un delicato atto di equilibrismo che l'Europa deve gestire in modo oculato, mirando a creare un ambiente che tuteli il cittadino senza frenare il progresso tecnologico.
Non deve infatti essere sottovalutato l’aspetto geopolitico dell’AI. Sappiamo benissimo che i paesi che sono nostri competitor globali non hanno questi scrupoli e che le decisioni in questo senso devono, dunque, non solo tutelare il cittadino, ma anche gli interessi strategici e di sicurezza - a maggior ragione in un momento di grande instabilità internazionale. Sarebbe una sconfitta tragica perdere la corsa alla supremazia nell'intelligenza artificiale rispetto alla Cina, alla Russia, o ad altri paesi del Medio Oriente, a causa di regolamenti auto-imposti che non riconoscono l'importanza cruciale dell'innovazione in questo ambito. È essenziale che queste normative siano modellate anche per garantire un vantaggio nella corsa all’AI.
La seconda notizia è certamente l'annuncio e il rilascio di Gemini da parte di Google.
Di Gemini è stata rilasciata solo la versione Pro, che ha performance analoghe o comunque comparabili a GPT-3.5. Invece, per quanto riguarda la versione Ultra (che promette di essere un serio contendente di GPT-4) e la versione Nano (pensata per dispositivi mobili) dobbiamo aspettare il 2024.
Dal punto di vista funzionale, è possibile identificare un trend di convergenza di questi modelli LLM: non solo OpenAI, Microsoft e Google, ma anche META, Amazon, Anthrophic e così via. A meno di introduzione di nuove tecniche per il training o di una riduzione delle necessità computazionali dei Transformer, pare si sia arrivati ad un livello funzionale comparabile. Ritengo che il vero fattore diversificante sarà la facilità con cui questi modelli potranno essere integrati all'interno di altre soluzioni digitali e la facilità con cui potranno essere estesi per abbracciare nuovi contenuti e nuove capabilities.
Certamente questa corsa amplia la scelta tra modelli LLM cosa che ovviamente è un bene, ma che rende più difficile scegliere il modello opportuno per risolvere una specifica classe di problemi. Data la vicinanza dei modelli, è probabile si sceglierà il fornitore, prima del modello, e lo si farà tenendo in considerazione reputazione, certificazioni e completezza dell’offerta anche di altri servizi AI.
La terza notizia del mese è il fiorire di cause per copyright infringement verso i produttori di modelli di AI generativa. Abbiamo la causa del New York Times versus OpenAI e Microsoft, Getty versus StabilityAI, diversi autori versus META (Facebook).
Al di là dell'aspetto legale, quello che vedo è una levata di scudi e un tentare di resistere ad una tecnologia che in realtà sta cambiando il nostro mondo. Analogamente, esistono siti web che non permettono il crawling da parte di algoritmi di training di Intelligenza artificiale. La storia ci insegna che questa è una reazione comune alle grandi innovazioni e ci ricorda al tempo stesso che sono battaglie di retroguardia destinate a sfociare nella sconfitta di chi le combatte. Piuttosto, è opportuno cercare accordi in modo da poter mettere a disposizione dei motori di crawling e dei training per gli algoritmi di AI generativa i contenuti – come hanno fatto, ad esempio, riviste del calibro di Politico, Business Insider, Bild e Die Welt - e ottenere una rilevanza maggiore, rispetto ai contenuti di altri.
Queste le tre principali notizie, ma ci sono anche tutta un'altra serie di situazioni che meritano la nostra attenzione.
Per quanto i Large Language Models, abbiamo raggiunto un notevole livello di maturità, i Large Vision Models, invece, hanno ancora delle debolezze, soprattutto per quanto riguarda ambiti specifici e verticali come, ad esempio, la capacità di individuare specifici materiali o difetti di produzione o ancora supporto a diagnosi mediche.
Il loro sviluppo è però importante e in netta crescita anche in domini specialistici. Dobbiamo considerare che il dataset minimo per fare training di un LVM è di almeno 100.000 immagini unlabeled. Riuscire a fare training con questo numero di partenza per un dominio specifico è complesso e costoso. La buona notizia è che usando un LVM pretrained è possibile fare tuning su un dominio specifico con immagini labeled con una percentuale delle immagini necessarie (circa il 10% - 30%) per realizzare un modello Vision tradizionale.
Parlando di altri trend emergenti, il rilascio di Phi-2 da parte di Microsoft rende di attualità quello dei Small Language Models (SLM). Microsoft ha recentemente rilasciato Phi-2 e lo ha reso disponibile in Azure AI Studio. Questi modelli promettono di dare performance e ritorni ottimi o comunque buoni, utilizzando parametri inferiori ai modelli più grandi di uno o addirittura due ordini di grandezza, in termini di complessità. Questo significa: costi inferiori, possibilità di eseguirli su commodity hardware, possibilità di farne retraining o comunque tuning in modo molto più economico.
Inoltre, fioriscono le iniziative per avere modelli di generativa Open Source. Penso che non debba esistere diatriba tra closed source e open source. È evidente che il closed source permetta migliori revenues ed è normalmente un modello utilizzato da chi è dominante sul mercato, di contro l'open source è il modello utilizzato da chi deve recuperare terreno sul mercato e quindi cerca un modo per trovare supporter. Per l’altro l’Open Source non è gratuito quando lo si sposta al di fuori da progetti di ricerca, ha semplicemente modi diversi per monetizzare il lavoro svolto. Tutto questo per dire che IBM, META e altre 50 aziende hanno lanciato una Open Source AI Alliance. Vedremo: tutto bene ciò che porta maggiore competizione.
In ultimo, ma non ultimo, con Il rilascio di GPT-4 turbo Microsoft sta iniziando il roll out di questo modello per il proprio Copilot per Microsoft 365. Buona notizia per chi può utilizzare questa tecnologia, perché certamente, in un utilizzo così general purpose, come quello di Copilot per Microsoft 365 dal punto di vista del Knowledge Mining, Il modello GPT-4 darà risultati e risposte molto più pertinenti e precise rispetto GPT-3.5.
Vuoi saperne di più sulla storia dell'AI, Open AI, ChatGPT e le loro applicazione in contesti business? Prenota il workshop personalizzato per avere le risposte ad alcune delle grandi domande legate all'utilizzo dell'intelligenza artificiale in relazione a privacy, equità e sicurezza.