Bentrovati alla rubrica mensile dedicata alle ultime novità nel campo dell'intelligenza artificiale. Il mese di maggio è stato ancor più intenso dei mesi precedenti di quest'anno. Infatti, si sono susseguiti diversi eventi fondamentali come:
Proviamo a partire dal principio, sapendo che per alcuni di questi temi (in modo particolare tutti gli annunci di Microsoft e l’AI Act) saranno necessari ulteriori approfondimenti.
Due, a mio modo di vedere, i fatti più importanti di questo maggio: certamente il rilascio del modello di intelligenza artificiale generativa multimodale più evoluto in assoluto GPT-4o. Il secondo fatto importante è il rilascio definitivo di una legislazione organica sull'intelligenza artificiale da parte dell'unione europea - legislazione che probabilmente come è accaduto per il GDPR diventerà un modello di riferimento mondiale.
La mia opinione personale è che GPT-4O abbia due caratteristiche davvero innovative: la prima è il Voice Mode, che dà l'impressione di parlare con un essere umano, per quanto riguarda la rapidità delle risposte. Al Voice Mode sono legate anche una serie di altre funzionalità, prima tra tutte la capacità di tradurre in tempo reale più lingue. La seconda funzionalità che mi ha colpito particolarmente è la capacità di analisi su dati strutturati e l'introduzione di grafici, che possono essere dinamicamente modificati all'interno della chat.
Tutto questo con un modello che due volte più veloce e che costa esattamente la metà. Dal rilascio di GPT-4, i costi per questo servizio si sono ridotti a 1/6 e la velocità è probabilmente tra le 5 e le 10 volte maggiore. Altro aspetto di GPT-4o è la sua capacità di visione nativa, con aumentate capacità di comprensione in diversi scenari: ambienti, persone, ma anche comprensione di cosa è on screen con la possibilità di guidare o suggerire soluzioni a problemi.
Di seguito alcuni esempi di cosa è possibile fare:
Il secondo fatto importante è il rilascio ufficiale dell’EU AI Act, il 21 Maggio2024. Ho già scritto un primer sull’AI Act, ma è utile riportare qui qualche informazione chiave, dal momento che presto l’AI Act inizierà ad avere i primi effetti reali, anche se entrerà completamente in esercizio tra 2 anni.
Prima di tutto per dare seguito alla funzione di indirizzo e controllo sono stati istituiti 4 nuovi organismi:
In secondo luogo trovo utile ricordare la timeline prevista:
Gli annunci per il gigante dell’AI, che ricordiamo rimane la società più capitalizzata al mondo, sono stati innumerevoli e a 360°. Affronterò più compiutamente alcune implicazioni di quanto annunciato a Build in un apposito articolo, ma nel frattempo riporto le notizie che ritengo a maggior impatto.
Come più volte anticipato, due sono le sfide dell’AI, che a mio modo di vedere, avranno un impatto più diretto sul quotidiano: l’avvento dei personal assistant e i robot umanoidi.
Nella direzione del personal assistant deve essere inquadrato l’annuncio del “Copilot plus PC”. Si tratta di ripensare completamente l’interazione uomo/macchina a favore del linguaggio naturale scritto o parlato, con un assistente integrato che permette di eseguire meglio I task quotidiani o toglierci d’impaccio. È lo step up del personal computing per come lo conosciamo. In particolare è di interesse il fatto che Microsoft metta a disposizione una API per gli sviluppatori (Windows Copilot Runtime), in modo che chiunque sviluppa applicazioni su Windows possa accedere ai modelli sottesi da Copilot.
Nonostante la sua partnership con OpenAI, il nuovo gruppo di AI consumer di Microsoft (guidato dall'ex CEO della start-up di AI Inflection) sta creando il proprio large language model (LLM) interno, chiamato MAI-1.
MAI-1 utilizzerà circa 500B parametri, rivaleggiando direttamente con LLM leader del settore come OpenAI’s GPT-4, Anthropic’s Claude e Google’s Gemini.
Si prevede che utilizzerà la tecnologia di Inflection e avrà capacità simili ai modelli GPT di OpenAI e al nuovo small AI model di Microsoft (Phi-3), progettato per l'uso su smartphones.
Sono convinto che l’AI cambierà radicalmente il nostro modo di vivere, studiare ed interagire. Tra le tante iniziative di Microsoft ha rilasciato un “Reading Coach” gratuito, pensato per fornire agli studenti delle storie AI generated con tutti I crismi di sicurezza.
Parlando di sicurezza dei modelli LLM, certamente possiamo considerare Microsoft all’avanguardia negli strumenti pensati per aggiungere guardrail esterni ai modelli che possano verificare sia I prompt (in) sia le completions (out), in modo da intercettare e bloccare tutta le tecniche di attacco agli LLM.
In ultimo, non poteva mancare un investimento nell’area della robotica umanoide: Microsoft ha annunciato una collaborazione con Sanctuary AI conosciuta per il suo robot umanoide chiamato Phoenix, per sviluppare un robot umanoide general purpose. Entrambi lavoreranno allo sviluppo di Large Behavior Models (LBMs) che alimentano robot di uso generale, permettendo loro di imparare dal mondo reale, non dalle simulazioni al computer. Microsoft fornirà l'infrastruttura cloud di Azure per alimentare carichi di lavoro AI pesanti e Sanctuary AI apporterà la sua profonda competenza tecnica ed esperienza alla collaborazione. I robot di Sanctuary AI sono già stati impiegati in uno delle più grandi catene retail del Canada e sono stati testati in 400 compiti legati ai clienti in 15 diverse industrie. Dopo aver guidato un round di finanziamento di serie B da $675M nella start-up di robotica AI, FigureAI, a febbraio, questa partnership rafforza ulteriormente l'impegno di Microsoft nello sviluppo dell'AI.
Non si arresta il rilascio di assistenti digitali a supporto dello sviluppo di codice. A maggio Amazon ha rilasciato Q Developer, GitHub Copilot Workspace e Mistral Codestral. Questi si aggiungono ad una serie di assistenti (Devin, Google Duet e Gemini in Adroid Studio e VS Code), rendendo la scelta e valutazione sempre più complessa. Per il momento, rimaniamo con GitHub Copilot, ma GitHub dovrà continuare ad aggiungere valore se non vorrà perdere terreno nei confronti di modelli opensource.
GitHub Copilot Workspace, in technical preview, è una piattaforma che facilita lo sviluppo partendo da una descrizione in linguaggio naturale di ciò che si vuole realizzare, suggerendo un piano d’azione e applicando le modifiche. Ogni passaggio del Workspace può essere personalizzato, ricreato o annullato, consentendo di ottenere la soluzione desiderata.
Offre un terminale integrato e port forwarding sicuro per la verifica del codice, e la possibilità di avviare un Codespace per l’utilizzo degli strumenti nativi GitHub.
Consente di condividere in modo immediato un workspace con il team per feedback e iterazioni, tenendo traccia automaticamente del contesto e della cronologia delle modifiche e creando una PR con un solo clic.
Amazon Q è un assistente digitale per lo sviluppo di codice che fornisce tutto quello che serve agli sviluppatori, inclusa la possibilità di implementare la soluzione creata su AWS. Funziona con le IDE più diffuse come Visual Studio Code, JetBrains IntelliJ IDEA e altre. Amazon Q Developer può automatizzare il rinnovamento e l'aggiornamento del codice (ad esempio, da Java 8 a Java 17), rafforzare la sicurezza con l'analisi delle vulnerabilità e proporre miglioramenti al codice.
Naturalmente può generare documentazione, refactoring del codice e aggiungere nuove funzionalità basate su descrizioni date dagli sviluppatori. Supporta anche la gestione dei casi di supporto AWS e l'integrazione con chatbot su Slack e Microsoft Teams.
Codestral è un assistente AI per la codifica che ha appreso oltre 80 linguaggi di programmazione, tra cui Python, Java, C++ e JavaScript. Può scrivere codice, testare funzioni e rispondere a domande sul codebase. Codestral può essere usato tramite il chatbot 'Le Chat' di Mistral, un'API per app di ricerca o sviluppo di terze parti, o HuggingFace, con una licenza per la ricerca e il testing. Mistral dichiara che Codestral supera gli altri assistenti AI per la codifica esistenti e collabora con partner del settore come JetBrains, SourceGraph e LlamaIndex.
Come spesso accade però, non è tutto oro quello che luccica: questi assistenti sono lontani dall’essere esenti da erori o dallo scrivere software senza vulnerabilità. L’esperienza umana e l’ausilio di altri strumenti per il controllo del codice sono oggi ancor più indispensabili.
Finalmente Anthropic Claude è disponibile in Europa. Prima lo era solo tramite AWS. Ottima cosa perché è l’unico modello oggi in grado di competere con GPT-4.
Parlando di modelli, Goolge ha mostrato Project Astra, con l’obiettivo di raggiungere ciò che oggi è in grado di fare la live vision di GTP-4 e magari includerla in qualche weareable come occhiali et similia.
Durante il primo giorno della sua conferenza per sviluppatori I/O, Google ha annunciato una radicale revisione delle sue funzionalità di ricerca integrando funzionalità avanzate potenziate dall'AI, utilizzando il suo LLM Gemini. Questa mossa mira a rivoluzionare il modo in cui gli utenti interagiscono con i risultati di ricerca, ma ha anche sollevato preoccupazioni. La nuova funzionalità AI Overview di Google, progettata per fornire riepiloghi in cima ai risultati di ricerca, ha sollevato critiche diffuse. Gli utenti hanno segnalato casi in cui i contenuti generati dall'AI erano inaccurati, fuorvianti e persino pericolosi. Lo strumento ha citato erroneamente articoli satirici e scherzi di Reddit, portando a errori fattuali che hanno acceso dibattiti sull'affidabilità dei sistemi AI di Google.
Ad esempio l'AI Overview ha dichiarato inaccuratamente che Barack Obama era un presidente musulmano, ha raccomandato di aggiungere colla alla salsa per pizza e ha consigliato di fissare il sole per benefici alla salute.
Ovviamente Google è corsa ai ripari, ma il danno era ormai fatto. La fretta non è buona consigliera e la rincorsa di Google all’AI (e pensare che fino ad paio di anni or sono Google era considerata leader in questo) ha portato troppi errori. La capacità di Google di mantenere la fiducia degli utenti è cruciale per prevenire un passaggio a motori di ricerca alternativi. L'erosione della fiducia nella Ricerca Google potrebbe influire negativamente sulle prestazioni degli inserzionisti, sul traffico organico del sito web e sui flussi di entrate dell'azienda. Per mitigare le preoccupazioni riguardo al fatto che i motori di ricerca potenziati dall'AI riassumano informazioni senza fornire il contesto appropriato, Google ha dichiarato che gli AI overviews non saranno forniti per ogni ricerca. Invece, appariranno quando le query sono complesse. Inoltre, i test precedenti indicano che gli utenti preferiscono ancora visitare i siti web per una prospettiva umana.
Non è un caso che rumors sempre più insistenti indichino come OpenAI stia pensando ad un proprio motore di ricerca. Vedremo.
Sempre dalla developer conf di Google:
Maggio è stato un mese di grande movimenti per META e OpenAI che hanno rivisto i propri organismi interni di controllo sui modelli sviluppati.
Sei mesi dopo aver sciolto il team 'Responsible AI', il CEO di Meta - Mark Zuckerberg - ha istituito un product advisory council per indirizzare gli sforzi di AI dell'azienda. Questo consiglio, composto da noti dirigenti come Patrick Collison, Nat Friedman, Tobi Lütke e Charlie Songhurst, è incaricato di fornire approfondimenti e raccomandazioni sui progressi tecnologici, l'innovazione e le opportunità di crescita strategica.
È significativo notare che questi consiglieri non sono eletti dagli azionisti, non sono pagati e operano indipendentemente dal consiglio di amministrazione, senza alcuna responsabilità legale. Questa iniziativa è in linea con il piano ambizioso di Zuckerberg di investire 35 miliardi di dollari in prodotti focalizzati sull'AI, posizionando Meta come leader l'industria AI globale, nonostante la consapevolezza che i risultati sperati potrebbero non essere immediati.
Al contrario, OpenAI ha istituito un nuovo safety and security committee in risposta a turbolenze interne, in particolare la perdita di diversi dipendenti focalizzati sulla sicurezza, preoccupati per la prioritizzazione dei 'shiny products' rispetto alla sicurezza. Questo comitato, guidato dal CEO Sam Altman e comprendente tre membri del consiglio di amministrazione e altri esperti tecnici e di policy interni, esaminerà i processi di sicurezza di OpenAI nei prossimi 90 giorni, presentando le loro scoperte e raccomandazioni al consiglio per ulteriori azioni.
A differenza del product advisory council esterno di Meta, il comitato di OpenAI è composto interamente da personale interno, sollevando dubbi sulla sua capacità di affrontare obiettivamente le preoccupazioni di sicurezza che hanno portato alla sua formazione.
Il contrasto tra le strategie delle due aziende è netto: il product advisory council esterno di Meta mira a promuovere l'innovazione e la crescita strategica, guidato da figure di spicco dell'industria, mentre il comitato interno di OpenAI è una risposta a preoccupazioni interne di sicurezza, incaricato di scrutinare le pratiche proprie dell'azienda.
L'approccio di Meta suggerisce un focus sulla validazione esterna e la crescita orientata al futuro, mentre il metodo di OpenAI evidenzia una risposta a tensioni interne. Entrambe le strategie riflettono le rispettive culture aziendali e le sfide immediate, mostrando percorsi diversi verso il raggiungimento della leadership nel settore AI.
Al summit internazionale sulla sicurezza dell'AI a Seul, 16 principali aziende di AI, tra cui Amazon, Google, Microsoft, Meta e OpenAI, hanno concordato i "Frontier AI Safety Commitments". Questi impegni prevedono lo sviluppo e il dispiegamento sicuro dei loro modelli di AI, la pubblicazione di framework di sicurezza per misurare i rischi e l'istituzione di soglie per identificare quando i rischi diventano intollerabili. Le aziende si sono impegnate a prendersi la responsabilità e ad astenersi dal dispiegare modelli di AI se non riescono a mantenere i rischi al di sotto di queste soglie. Questo accordo globale senza precedenti tra le principali aziende di AI mira a garantire responsabilità e trasparenza nello sviluppo dell'AI.
Un team di ricercatori dell'Ohio State University ha creato CURE, un modello di AI che può valutare con precisione gli effetti e l'efficacia dei trattamenti farmaceutici, senza la necessità di sperimentazioni cliniche.
Il modello si basa sui record sanitari anonimi di oltre 3 milioni di persone, il che gli consente di acquisire una profonda conoscenza delle caratteristiche dei pazienti. CURE ha battuto sette altri modelli di AI leader nelle stime dell'efficacia dei trattamenti, con miglioramenti dell'7-8% sui principali indicatori. Le previsioni dell'AI sono in stretta corrispondenza con i risultati delle sperimentazioni cliniche nei test, mostrando il potenziale per produrre intuizioni che semplificano le prove sui farmaci.
Con l'abilità di processare grandi dataset medici, CURE rappresenta un importante progresso verso sistemi che possono valutare fidatamente l'efficacia dei farmaci nel mondo reale — potenzialmente velocizzando la scoperta di nuovi trattamenti senza i costi e i tempi prolungati delle sperimentazioni cliniche tradizionali.
Sempre in ambito medico, i ricercatori dell'UC San Francisco hanno sviluppato un innovativo impianto cerebrale che sfrutta l'AI per aiutare un sopravvissuto a un ictus a comunicare senza problemi sia in spagnolo che in inglese, interpretando l'attività cerebrale. Questo impianto bilingue è stato testato su un paziente che ha perso la capacità di parlare dopo aver subito un ictus all'età di 20 anni. Il sistema di decodifica potenziato dall'AI è stato addestrato per riconoscere i pattern di attività cerebrale del paziente mentre articolava parole in entrambe le lingue.
Sorprendentemente, il sistema è stato in grado di determinare la lingua intesa dal paziente con un'accuratezza dell'88% e identificare correttamente la frase il 75% delle volte. Questo impianto innovativo consente al paziente di partecipare a conversazioni bilingue e di passare da una lingua all'altra, nonostante non avesse imparato l'inglese fino a dopo l'ictus. Questa ricerca esemplifica la crescente capacità dell'AI di interpretare le onde cerebrali, potenzialmente sbloccando una vasta gamma di nuove conoscenze, trattamenti e tecnologie. Segna anche un significativo avanzamento nel facilitare la comunicazione per le vittime di ictus e nel superare le barriere linguistiche nel processo.
La cosa curiosa dei modelli LLM è che sono talmente complessi che non sono “trasparenti” o spiegabili, cosa che tra l’altro i legislatori verrebbero fossero denotando una profonda ignoranza rispetto allo stato della tecnologia. Cosa ancora più curiosa è che per capire come funzionino ora si stia cercando di applicare tecniche simili all’individuazione delle zone specialistiche nel cervello umano.
Infatti sia I ricercatori OpenAI sia quelli di Anthopic stanno cercando di capire come spegnendo certe parti dei modelli possano cambiare le risposte, ad esempio inibendo certi titpi di risposte o “ragionamenti”.
La ricerca di Anthropic è la più recente chiamata “Scaling Monosemanticity” identifica dei “bundles” che vengono accesi o spenti per comprendere il comportamento del modello. Anthropic in questo modo ha identificato e mappato con successo milioni di concetti interpretabili dall'uomo, denominati "features", all'interno delle reti neurali di Claude.
I ricercatori hanno utilizzato una tecnica nota come 'dictionary learning' per isolare i pattern che corrispondono a una vasta gamma di concetti, dagli oggetti tangibili alle idee astratte. Modificando questi pattern, il team ha dimostrato la capacità di alterare gli output di Claude, aprendo la strada a sistemi di intelligenza artificiale più controllabili. Inoltre, hanno mappato concetti pertinenti alle preoccupazioni sulla sicurezza dell'IA, come comportamenti di inganno e ricerca di potere, offrendo approfondimenti su come questi modelli comprendono e possono potenzialmente manifestare tali tendenze.
Tutti parlano di prompting e prompt engineering (a volte a sproposito), ma ovviamente l’AI può aiutarci a scrivere prompt più efficaci; ora che Anthorpic è sbarcata in Europa possiamo accedere (senza dover ricorrere a proxy e numeri telefonici USA virtuali) a tutti gli strumenti messi a disposizione, tra cui anche un tool di supporto alla creazione dei prompt: