Nonostante l'assenza di annunci rivoluzionari, ottobre si è rivelato un mese ricco di attività nel settore dell'intelligenza artificiale. OpenAI e Anthropic sono in una accesa competizione, ciascuna impegnata a superare l’altra con progressi che spaziano da nuove funzionalità per assistenti a strumenti per la codifica assistita dall’AI e l'analisi dei dati. Questo mese, il tema principale è stato l’intensa competizione e la serie di nuove funzionalità lanciate da questi due colossi dell’AI.
La nuova interfaccia Canvas di OpenAI
OpenAI ha introdotto una nuova interfaccia per ChatGPT chiamata Canvas, attualmente disponibile in versione beta per gli utenti di ChatGPT Plus e Teams. Questo aggiornamento rappresenta la prima grande revisione dell'interfaccia dal lancio di ChatGPT nel 2022. Canvas funge da spazio di lavoro dedicato per attività di scrittura e codifica.
Caratteristiche principali di Canvas
- Modifica iterativa: Canvas consente agli utenti di perfezionare specifiche parti dell’output senza dover rigenerare l'intero prompt. Questa funzionalità facilita scrittori e programmatori nell’adattare il tono, la lunghezza o persino la lingua del contenuto senza dover ricominciare da capo.
- Modifiche di testo e codice: Gli scrittori possono regolare il testo modificando il tono, aggiungendo emoji o migliorando la grammatica. I programmatori, nel frattempo, possono far revisionare il codice, aggiungere commenti in linea, correggere bug e tradurre tra diversi linguaggi di programmazione, come PHP e JavaScript.
- Distribuzione in Beta: Canvas è basato su GPT-4o ed è attualmente in fase di distribuzione globale per gli utenti di ChatGPT Plus e Teams, con piani di estensione a tutti gli utenti in futuro.
Canvas rappresenta la risposta diretta di OpenAI alla funzione Artifacts di Anthropic, lanciata precedentemente. Questa mossa è anche in linea con l’obiettivo di OpenAI di raggiungere il target di ricavi dopo un record di finanziamenti di 6,6 miliardi di dollari.
Aggiornamenti orientati agli sviluppatori di OpenAI
Durante il DevDay annuale, OpenAI ha introdotto diversi strumenti mirati agli sviluppatori: un’API per l'elaborazione vocale, strumenti di distillazione, perfezionamento delle capacità visive e una cache di prompt.
Nuovi strumenti e funzionalità
- API vocale: La Realtime API abilita interazioni vocali in tempo reale, consentendo risposte più rapide e rendendo più fattibili gli scambi voce a voce. Questa funzionalità è particolarmente utile per le applicazioni di assistenza clienti che richiedono bassa latenza.
- Strumenti di distillazione: Questi strumenti permettono agli sviluppatori di distillare modelli più grandi, come GPT-4o, in versioni più piccole e convenienti per attività specializzate. Ad esempio, un chatbot per l’assistenza clienti può usare GPT-4o per creare risposte di alta qualità, quindi perfezionare un modello più piccolo per gestire le operazioni quotidiane in modo più efficiente.
- Perfezionamento visivo: Gli sviluppatori possono migliorare le capacità di analisi visiva di GPT-4o addestrandolo su dataset personalizzati, utile per compiti specializzati come il rilevamento di oggetti in domini specifici.
- Cache di prompt: Questa funzionalità riutilizza prompt recenti, riducendo i costi e aumentando la velocità di elaborazione, particolarmente utile per applicazioni come i chatbot che riutilizzano frequentemente gli input.
Questi aggiornamenti rappresentano un allontanamento dal lancio di prodotti appariscenti a favore del perfezionamento e dell’ottimizzazione delle capacità attuali, in risposta alle crescenti preoccupazioni sul consumo di risorse e sull’impatto ambientale dell’AI.
Le strategie competitive di Anthropic: l'evoluzione di Claude
Anthropic ha compiuto anche importanti progressi per migliorare il proprio modello AI, Claude.
Caratteristiche principali di Claude 3.5 Sonnet
- Strumento di analisi: La nuova funzionalità di analisi consente a Claude di eseguire codice JavaScript all'interno dell’interfaccia chat. Questo è simile al Code Interpreter di OpenAI ma offre una maggiore flessibilità per creare visualizzazioni, dashboard e operazioni matematiche complesse.
- Uso del computer con Claude 3.5 Sonnet: Il Claude aggiornato può ora eseguire in modo autonomo attività su un computer, come ricerche web, cliccare pulsanti e digitare testi. Sebbene sia ancora in beta a causa di problemi di affidabilità, questa funzionalità promette un salto significativo nella capacità dell'AI di interagire con ambienti digitali.
Questa capacità di navigare autonomamente nei software, ripetere compiti e auto-correggersi distingue Claude da altri modelli e apre nuove possibilità per obiettivi complessi e multi-step, mentre Anthropic garantisce la sicurezza attraverso protocolli per prevenire attività a rischio.
Perché la competizione tra OpenAI e Anthropic è importante
Gli sviluppi di ottobre segnano un momento cruciale per OpenAI e Anthropic, che si concentrano su strumenti pratici che migliorano l’esperienza utente e l’efficienza operativa. Canvas e le nuove API di OpenAI rispondono a esigenze specifiche come velocità, riduzione dei costi e personalizzazione dei modelli per gli sviluppatori, mentre l’autonomia di Claude apre la strada a un futuro in cui l'AI può gestire compiti complessi in modo indipendente.
Per i leader aziendali, questi progressi evidenziano l’importanza di rimanere aggiornati sulle capacità dell’AI che possono trasformare sia i servizi rivolti ai clienti sia le operazioni interne. Sfruttare l’AI per miglioramenti innovativi, interazioni in tempo reale e automazione dei compiti sarà essenziale per mantenere la competitività in un mercato sempre più influenzato dall’automazione intelligente.
Curiosità sul mondo dell’Intelligenza Artificiale
Di recente, Apple ha condotto una valutazione approfondita di oltre 20 modelli linguistici di grandi dimensioni (Large Language Models, LLM), inclusi o1 e GPT-4o di OpenAI, Gemma 2 di Google e Llama 3 di Meta. L’obiettivo era verificare se questi modelli fossero capaci di un vero ragionamento logico o se le loro prestazioni dipendessero semplicemente da sofisticate tecniche di pattern matching. I risultati hanno rivelato debolezze significative, mettendo in evidenza le attuali limitazioni degli LLM.
GSM-Symbolic: un nuovo benchmark per la valutazione degli LLM
Tradizionalmente, gli LLM sono stati valutati usando il popolare benchmark GSM8K, che misura le loro capacità di ragionamento. Tuttavia, Apple ha sollevato preoccupazioni che gli LLM possano ottenere buoni risultati su GSM8K semplicemente perché sono stati pre-addestrati sulle risposte. Per rispondere a questa problematica, Apple ha sviluppato un nuovo benchmark chiamato GSM-Symbolic.
GSM-Symbolic mira a testare gli LLM introducendo variazioni nelle variabili delle domande, come aggiungere informazioni irrilevanti o modificare nomi e numeri. I risultati sono stati eloquenti: tutti gli LLM testati hanno mostrato un calo di prestazioni di fronte a questi cambiamenti. Anche una modifica minima, come cambiare un nome, ha comportato un degrado delle prestazioni di circa il 10%.
Ciò ha portato Apple a concludere che attualmente “non c'è un vero ragionamento formale” negli LLM e che “il loro comportamento si spiega meglio come pattern matching sofisticato”. L'implicazione è che gli LLM mancano ancora di autentico ragionamento logico, faticando quando si trovano di fronte a modifiche minime che divergono dai dati di addestramento.
Implicazioni per le applicazioni dell’AI nel mondo reale
Se gli LLM sono limitati al pattern matching sofisticato piuttosto che a un vero ragionamento logico, la loro affidabilità per applicazioni nel mondo reale che richiedono coerenza e precisione è messa in dubbio. Questo è particolarmente critico per le applicazioni AI utilizzate in ambienti dinamici, dove adattabilità e coerenza logica sono fondamentali.
Sarà interessante osservare come Apple, con i suoi sviluppi nell’AI, risponderà ai risultati del suo studio—soprattutto dato che compete con Google, Meta e OpenAI, nonostante gli annunci recenti di partnership.