Torna al blog
Davide Cocozza
Davide Cocozza·29 maggio 2026

Claude Opus 4.8 cosa cambia benchmark e prezzi

Claude Opus 4.8 cosa cambia benchmark e prezzi

Claude Opus 4.8 cosa cambia benchmark e prezzi

TL;DR

Anthropic ha rilasciato Claude Opus 4.8 il 28 maggio 2026, sei settimane dopo Opus 4.7. Il modello segna 69,2% su SWE-bench Pro, introduce una Fast Mode 2,5 volte piu veloce e tre volte piu economica, i dynamic workflows con centinaia di subagent paralleli in Claude Code e un livello di onesta vicino a quello di Claude Mythos. Il prezzo standard resta invariato.

Anthropic ha presentato Claude Opus 4.8 come il suo modello di punta piu capace e piu onesto. Non e un salto generazionale: e un aggiornamento incrementale che alza la barra su coding agentico, computer use e affidabilita, mantenendo lo stesso costo per token di Opus 4.7. Per chi costruisce automazioni AI e agenti — il cuore del lavoro di Datazen e del Machine Learning applicato al business — i numeri contano piu del marketing.

Cosa rende Opus 4.8 diverso da Opus 4.7

Opus 4.8 arriva a sole sei settimane di distanza da Opus 4.7 e si concentra su tre direttrici: coding agentico, controllo dell'effort e onesta del modello. Il guadagno piu netto e sul codice difficile, dove i benchmark hanno ancora margine di crescita.

69,2%
SWE-bench Pro (vs 64,3% Opus 4.7)
2,5x
Velocita della nuova Fast Mode
4x
Meno errori di codice non segnalati
28 mag 2026
Data di rilascio

Il dato chiave per gli sviluppatori e il +4,9 sul SWE-bench Pro: SWE-bench Verified e ormai vicino alla saturazione, quindi e sul set piu duro e resistente alla memorizzazione che si vede il vero progresso. Come riporta Vellum, su SWE-bench Verified Opus 4.8 sale a 88,6% contro l'87,6% del predecessore, un guadagno marginale perche il tetto e vicino.

Quanto e forte Opus 4.8 nei benchmark

Sui test agentici Opus 4.8 guida quasi ovunque, superando GPT-5.5 e Gemini 3.1 Pro nella maggioranza delle prove. L'unico benchmark dove GPT-5.5 resta avanti e Terminal-Bench 2.1.

BenchmarkOpus 4.8Opus 4.7GPT-5.5Gemini 3.1 Pro
SWE-bench Pro69,2%64,3%58,6%54,2%
Terminal-Bench 2.174,6%66,1%78,2%70,3%
OSWorld-Verified83,4%82,8%78,7%76,2%
Humanity's Last Exam (con tool)57,9%---

Secondo i dati raccolti da OfficeChai, Opus 4.8 e anche il modello computer-use e browser-agent piu forte mai testato da Anthropic, con 84% su Online-Mind2Web. Su Humanity's Last Exam, il test di ragionamento multidisciplinare, raggiunge 49,8% senza strumenti e 57,9% con strumenti, davanti a tutti e tre i rivali.

Quanto costa Claude Opus 4.8

Il prezzo standard non cambia rispetto a Opus 4.7: questo e il messaggio piu importante per chi pianifica budget su API. La vera novita di prezzo riguarda la Fast Mode, ora tre volte piu economica della precedente.

ModalitaInput per 1M tokenOutput per 1M token
Standard$5$25
Fast Mode$10$50

La Fast Mode esegue lo stesso modello a circa 2,5 volte la velocita, come conferma VentureBeat. Per workflow ad alto volume — outreach automatizzato, generazione contenuti, classificazione documenti — il taglio del costo della modalita veloce cambia direttamente il ROI di un sistema in produzione.

Come funzionano i dynamic workflows in Claude Code

I dynamic workflows sono la feature piu rilevante per chi costruisce agenti. La research preview permette a Opus 4.8 di pianificare task complessi e coordinare centinaia di subagent in parallelo dentro una singola sessione di Claude Code.

Pianificazione del task

Opus 4.8 scompone un obiettivo grande, come una migrazione di codebase, in sotto-task deterministici.

Fan-out dei subagent

Il modello lancia centinaia di subagent paralleli, ognuno con uno scope ristretto e verificabile.

Verifica con la test suite

Ogni modifica viene validata contro la test suite esistente, usata come barra di qualita.

Merge

Il lavoro converge dal kickoff al merge senza supervisione manuale costante.

L'applicazione di punta indicata da Anthropic e la migrazione su larga scala, come descritto da TechCrunch.

Claude Code insieme a Opus 4.8 puo ora eseguire migrazioni su scala di codebase, attraverso centinaia di migliaia di righe di codice, dal kickoff al merge, con la test suite esistente come riferimento.

Anthropic

Insieme ai workflow arriva il controllo dell'effort su claude.ai e Cowork: l'utente decide quanta potenza di calcolo dedicare a una risposta, bilanciando velocita, profondita e consumo dei limiti di utilizzo.

Perche l'onesta del modello e una svolta per il business

Anthropic descrive Opus 4.8 come il suo modello piu onesto. Il dato concreto: e circa quattro volte meno probabile rispetto a Opus 4.7 di lasciar passare difetti nel codice che ha scritto senza segnalarli.

  • Tassi di comportamento disallineato sostanzialmente piu bassi di Opus 4.7
  • Allineamento vicino a Claude Mythos Preview, il modello meglio allineato di Anthropic
  • Nuovi massimi sui tratti prosociali misurati dal team di alignment
  • Maggiore precisione nelle citazioni e migliore efficienza dei token

Per un'azienda che integra un agente AI nei propri processi — dall'automazione del CRM alla gestione dei preventivi — un modello che segnala i propri errori invece di nasconderli riduce il rischio operativo. E la differenza tra un agente che produce codice plausibile ma fragile e uno che ammette i limiti delle proprie soluzioni. Per capire come questi modelli si inseriscono in un sistema reale, vedi il nostro caso studio sull'outreach B2B con AI.

Cosa significa Opus 4.8 per chi costruisce con l'AI

Opus 4.8 non e una rivoluzione, ed e proprio questo il punto: Anthropic consolida un vantaggio sul coding agentico senza alzare i prezzi. Per le PMI italiane che valutano l'adozione dell'AI, le implicazioni sono chiare.

Coding agentico maturo

Con 69,2% su SWE-bench Pro e dynamic workflows, le migrazioni e i refactoring su larga scala diventano automatizzabili con supervisione minima.

Economia migliore

Fast Mode tre volte piu economica significa che workflow ad alto volume costano meno a parita di output, migliorando il ROI dei sistemi in produzione.

Meno rischio

Un modello che segnala i propri errori riduce i bug silenziosi nei sistemi mission-critical.

Computer use affidabile

84% su Online-Mind2Web abilita agenti browser piu solidi per automazione web reale.

La domanda non e piu se Opus 4.8 sia all'altezza, ma come integrarlo in un'architettura di automazione che porti valore misurabile. La tecnologia c'e: il collo di bottiglia e la strategia di implementazione.

Vuoi integrare Claude Opus 4.8 nel tuo business?

Prenota una call conoscitiva gratuita con i nostri esperti di automazione AI.

Richiedi Consulenza

Domande frequenti su Claude Opus 4.8

Anthropic ha rilasciato Claude Opus 4.8 il 28 maggio 2026, sei settimane dopo Opus 4.7. E disponibile da subito su tutti gli endpoint di Claude.

No. Il prezzo standard resta invariato: 5 dollari per milione di token input e 25 dollari per milione di token output. La nuova Fast Mode costa 10 dollari input e 50 dollari output per milione di token, tre volte meno della fast mode precedente.

Nella maggior parte dei benchmark si. Supera entrambi su SWE-bench Pro, OSWorld-Verified e Humanity's Last Exam. L'unica eccezione tra i test principali e Terminal-Bench 2.1, dove GPT-5.5 resta avanti con 78,2% contro 74,6%.

Sono una research preview in Claude Code che permette a Opus 4.8 di pianificare task complessi e lanciare centinaia di subagent paralleli in una singola sessione, ad esempio per migrazioni di codebase di centinaia di migliaia di righe.