Nonostante l'assenza di annunci rivoluzionari, ottobre si è rivelato un mese ricco di attività nel settore dell'intelligenza artificiale. OpenAI e Anthropic sono in una accesa competizione, ciascuna impegnata a superare l’altra con progressi che spaziano da nuove funzionalità per assistenti a strumenti per la codifica assistita dall’AI e l'analisi dei dati. Questo mese, il tema principale è stato l’intensa competizione e la serie di nuove funzionalità lanciate da questi due colossi dell’AI.
OpenAI ha introdotto una nuova interfaccia per ChatGPT chiamata Canvas, attualmente disponibile in versione beta per gli utenti di ChatGPT Plus e Teams. Questo aggiornamento rappresenta la prima grande revisione dell'interfaccia dal lancio di ChatGPT nel 2022. Canvas funge da spazio di lavoro dedicato per attività di scrittura e codifica.
Canvas rappresenta la risposta diretta di OpenAI alla funzione Artifacts di Anthropic, lanciata precedentemente. Questa mossa è anche in linea con l’obiettivo di OpenAI di raggiungere il target di ricavi dopo un record di finanziamenti di 6,6 miliardi di dollari.
Durante il DevDay annuale, OpenAI ha introdotto diversi strumenti mirati agli sviluppatori: un’API per l'elaborazione vocale, strumenti di distillazione, perfezionamento delle capacità visive e una cache di prompt.
Questi aggiornamenti rappresentano un allontanamento dal lancio di prodotti appariscenti a favore del perfezionamento e dell’ottimizzazione delle capacità attuali, in risposta alle crescenti preoccupazioni sul consumo di risorse e sull’impatto ambientale dell’AI.
Anthropic ha compiuto anche importanti progressi per migliorare il proprio modello AI, Claude.
Questa capacità di navigare autonomamente nei software, ripetere compiti e auto-correggersi distingue Claude da altri modelli e apre nuove possibilità per obiettivi complessi e multi-step, mentre Anthropic garantisce la sicurezza attraverso protocolli per prevenire attività a rischio.
Gli sviluppi di ottobre segnano un momento cruciale per OpenAI e Anthropic, che si concentrano su strumenti pratici che migliorano l’esperienza utente e l’efficienza operativa. Canvas e le nuove API di OpenAI rispondono a esigenze specifiche come velocità, riduzione dei costi e personalizzazione dei modelli per gli sviluppatori, mentre l’autonomia di Claude apre la strada a un futuro in cui l'AI può gestire compiti complessi in modo indipendente.
Per i leader aziendali, questi progressi evidenziano l’importanza di rimanere aggiornati sulle capacità dell’AI che possono trasformare sia i servizi rivolti ai clienti sia le operazioni interne. Sfruttare l’AI per miglioramenti innovativi, interazioni in tempo reale e automazione dei compiti sarà essenziale per mantenere la competitività in un mercato sempre più influenzato dall’automazione intelligente.
Di recente, Apple ha condotto una valutazione approfondita di oltre 20 modelli linguistici di grandi dimensioni (Large Language Models, LLM), inclusi o1 e GPT-4o di OpenAI, Gemma 2 di Google e Llama 3 di Meta. L’obiettivo era verificare se questi modelli fossero capaci di un vero ragionamento logico o se le loro prestazioni dipendessero semplicemente da sofisticate tecniche di pattern matching. I risultati hanno rivelato debolezze significative, mettendo in evidenza le attuali limitazioni degli LLM.
Tradizionalmente, gli LLM sono stati valutati usando il popolare benchmark GSM8K, che misura le loro capacità di ragionamento. Tuttavia, Apple ha sollevato preoccupazioni che gli LLM possano ottenere buoni risultati su GSM8K semplicemente perché sono stati pre-addestrati sulle risposte. Per rispondere a questa problematica, Apple ha sviluppato un nuovo benchmark chiamato GSM-Symbolic.
GSM-Symbolic mira a testare gli LLM introducendo variazioni nelle variabili delle domande, come aggiungere informazioni irrilevanti o modificare nomi e numeri. I risultati sono stati eloquenti: tutti gli LLM testati hanno mostrato un calo di prestazioni di fronte a questi cambiamenti. Anche una modifica minima, come cambiare un nome, ha comportato un degrado delle prestazioni di circa il 10%.
Ciò ha portato Apple a concludere che attualmente “non c'è un vero ragionamento formale” negli LLM e che “il loro comportamento si spiega meglio come pattern matching sofisticato”. L'implicazione è che gli LLM mancano ancora di autentico ragionamento logico, faticando quando si trovano di fronte a modifiche minime che divergono dai dati di addestramento.
Se gli LLM sono limitati al pattern matching sofisticato piuttosto che a un vero ragionamento logico, la loro affidabilità per applicazioni nel mondo reale che richiedono coerenza e precisione è messa in dubbio. Questo è particolarmente critico per le applicazioni AI utilizzate in ambienti dinamici, dove adattabilità e coerenza logica sono fondamentali.
Sarà interessante osservare come Apple, con i suoi sviluppi nell’AI, risponderà ai risultati del suo studio—soprattutto dato che compete con Google, Meta e OpenAI, nonostante gli annunci recenti di partnership.