Davide Cocozza·4 giugno 2026

Anthropic automatizza il 95% delle analytics con Claude

TL;DR

Il 3 giugno 2026 Anthropic ha pubblicato il dettaglio dello stack che usa internamente per fare analytics: il 95% delle query di business e' gestito in self-service da agenti Claude. L'accuratezza e' passata dal 21% al 95% dopo l'introduzione delle skill, e l'80% degli errori restanti aveva l'informazione corretta gia' presente nel corpus. Il problema era retrieval, non conoscenza. Lo stack a 4 layer e' replicabile.

Anthropic ha pubblicato un case study insolitamente onesto: i suoi stessi agenti analytics partivano dal 21% di accuratezza e quasi tutti gli errori venivano da informazioni che il modello avrebbe potuto trovare, ma non sapeva dove cercare. Il fix non e' stato un modello piu' grande. E' stato un sistema operativo a quattro layer messo intorno al modello, raccontato nel post ufficiale How Anthropic enables self-service data analytics with Claude. E' la blueprint piu' chiara finora pubblicata su come si costruisce un agente AI affidabile per il business, e tocca direttamente il lavoro di chi sta integrando agenti AI nei flussi aziendali.

Cosa ha risolto Anthropic e come lo misura

L'obiettivo era togliere il collo di bottiglia umano dalle richieste analytics: finance che chiede il revenue per segmento, product che chiede la retention per cohort, sales che chiede la pipeline per area. Storicamente queste domande passano da un data analyst che scrive SQL. Anthropic le ha redirette su un agente Claude.

95%

Query analytics gestite in self-service

21% -> 95%

Salto di accuratezza con le skill

99%

Accuratezza in alcuni domini specifici

80%

Errori con dato corretto gia' nel corpus

“

Data is not software. L'analytics richiede correttezza deterministica, non liberta' creativa. Risolto il mapping domanda-entita', l'esecuzione SQL diventa banale.

Data Science & Data Engineering

Anthropic

Tre failure mode hanno spiegato la quasi totalita' degli errori, secondo il post tecnico ufficiale Anthropic:

Concept-Entity Ambiguity: la domanda dell'utente puo' mappare su molte tabelle candidate ("revenue" su 40 definizioni diverse).
Data Staleness: schemi e definizioni di business obsoleti che l'agente legge come se fossero validi.
Retrieval Failure: la risposta corretta esiste, ma e' sepolta in migliaia di asset e l'agente non la trova.

Quali sono i 4 layer dello stack analytics agentico

Anthropic struttura il sistema come una piramide: senza il layer sotto, quello sopra non funziona. Lo stesso ordine vale per chiunque voglia replicare il pattern in una propria azienda.

Layer	Cosa contiene	Output di valore
1. Data Foundations	Dimensional modeling, dataset canonici, deprecation aggressiva di tabelle duplicate	Una sola fonte di verita' per metrica
2. Sources of Truth	Semantic layer, lineage graph, query corpus, business context	Riferimenti consultabili dall'agente
3. Skills	Procedural knowledge in markdown: workflow, disambiguazione, regole PII	Salto 21% -> 95% accuracy
4. Validation	Eval offline, ablation, adversarial review, harvesting correzioni	Gate prima del deploy + monitoring

Il Layer 1 e' il piu' sottovalutato. Anthropic dice esplicitamente che la singola leva di accuratezza piu' grande e' avere dataset canonici: se "revenue" risolve a una sola tabella governata invece di quaranta candidate plausibili, il problema "scompare in gran parte". E' lo stesso principio del dbt Semantic Layer e di Cube: una sola definizione governata per metrica, consultata da tutti i tool di analytics a valle. Le PMI italiane che chiedono un agente AI su data sporchi stanno costruendo sulla sabbia.

Il Layer 2 e' contro-intuitivo: dare all'agente accesso SQL diretto a tutto il corpus storico (migliaia di query gia' scritte dagli analyst) ha mosso l'accuratezza di meno di 1 punto. La conoscenza era li' ma in forma non strutturata. La distillazione in reference doc curati ha funzionato molto meglio.

Come funzionano le Claude Skills nel concreto

Le skill sono il layer trasformazionale. Sono file markdown versionati con il codice, scritti in linguaggio naturale, che dicono all'agente come pensare su un dominio specifico. Anthropic ne mantiene due tipi:

Knowledge Skill - il router

Un thin layer di circa 30 file curati che dice all'agente quale dataset usare per quale dominio. Non contiene conoscenza, contiene puntatori.

Unbook Skill - il workflow del senior analyst

Il playbook procedurale: come fare clarification con l'utente, dove cercare la fonte, come scrivere la query, come fare adversarial review del risultato. Include pattern di analisi riutilizzabili.

Distribuzione via MCP

Le skill arrivano all'agente via Model Context Protocol, lo standard aperto che Anthropic ha rilasciato a novembre 2024, e sono coerenti su Slack, IDE, dashboard e plugin marketplace. La modifica si propaga automatica su tutte le superfici.

Manutenzione come engineering

Il 90% delle pull request sui data model include ora aggiornamenti alle skill. La skill vive nello stesso repository del transformation model, non in un wiki separato che marcisce.

Una scoperta importante: aggiungere round di documentazione oltre una certa soglia peggiora l'accuratezza. Allungare il contesto senza migliorare la chiarezza confonde l'agente. Lo stesso vale per i prompt che vediamo ogni giorno nei progetti dei clienti: piu' istruzioni non fa piu' accurato.

Perche' la validation non e' un add-on opzionale

Il quarto layer e' quello che separa un prototipo da un sistema in produzione. Anthropic ha tre meccanismi paralleli.

Eval offline — Claude auto-genera test case dalle dashboard piu' usate (validati da umani), piu' eval long-tail sintetici per coprire domande rare. Ogni run viene archiviato come telemetria nel warehouse con skill version, git SHA e model ID. Il rollout di un nuovo dominio e' gated al 90% pass rate.

Adversarial review — un sub-agente con prompt "attacca le assunzioni di questa risposta" valida ogni output critico. Costo: +32% di token e +72% di latenza per un guadagno di +6% di accuratezza. Sostituire il reviewer con un modello piu' economico ha azzerato il guadagno: l'adversarial review funziona solo con un modello forte.

Active correction harvesting — un agente automatico monitora i canali Slack dove l'utente ha scritto "no, in realta' il numero giusto e'..." e propone in autonomia pull request che aggiornano la skill. Il sistema impara dai propri errori in modo strutturato, non lasciato al goodwill degli analyst.

“

If revenue resolves to one governed dataset instead of forty plausible candidates, the problem largely disappears.

Anthropic Data Science

Engineering Blog

Cosa significa per chi sta costruendo agenti AI in azienda

Tre take-away operativi diretti, sia per team enterprise sia per PMI che stanno introducendo agenti AI:

Niente agente analytics affidabile senza dataset canonici. La governance del dato e' prerequisito, non roadmap. Tabelle duplicate uguale ambiguita' uguale errori al management.
Le skill battono i prompt lunghi. Procedural knowledge scritta in markdown, versionata, collocata vicino ai data model. Non in un wiki Notion che nessuno aggiorna.
L'adversarial review e' costosa ma non opzionale per decisioni che pesano. Trade-off accettabile: +6% accuracy vale il +72% di latenza quando l'alternativa e' un report sbagliato in board meeting.
Il 90% degli errori e' problema di retrieval, non di intelligenza. Spendere di piu' in modello quando manca la struttura informativa e' soldi buttati.
Misurare prima di scalare. Eval offline con ground truth ancorato a snapshot date, harvesting attivo delle correzioni. Senza misurazione, la 'sensazione che funzioni' decade in 90 giorni.

Il pattern e' replicabile su scala PMI italiana, ma richiede competenze su data engineering, semantic layer e governance, non solo prompt engineering. E' esattamente il lavoro che Datazen fa nei progetti di automazione CRM e reportistica, con stack EU-compliant integrato sui gestionali italiani.

Vuoi un agente AI analytics affidabile per la tua azienda?

In una call di 30 minuti mappiamo i tuoi dataset, scoviamo le ambiguita' che fanno sbagliare gli agenti e definiamo il primo workflow self-service per il management.

Richiedi una consulenza gratuita

Significa che 95 richieste su 100 fatte da team non-tecnici (finance, sales, product) ricevono una risposta corretta da un agente Claude senza passare da un data analyst umano. La query viene tradotta in SQL, eseguita sui dataset governati e restituita con citazione della fonte.

Senza skill l'agente vede migliaia di tabelle, viste e definizioni di metrica ambigue. Il bottleneck non e' la generazione SQL ma il mapping fra domanda utente e entita' corretta nel data model. Le skill di Claude Code danno all'agente il workflow esatto da seguire (semantic layer, lineage, regole di business) e portano l'accuratezza oltre il 95%.

E' un file markdown versionato nel repository, che descrive in linguaggio naturale come l'agente deve affrontare un certo dominio: quali tabelle consultare, in che ordine, come disambiguare termini di business, quali campi sono PII. Le skill vengono distribuite all'agente via Model Context Protocol (MCP) o come plugin.

Si', il pattern e' scalabile. La parte costosa non e' il modello ma la governance: dataset canonici, semantic layer, skill scritte e mantenute insieme ai data model. Datazen costruisce questa pipeline custom con stack EU-compliant (GDPR, AI Act) e gestionali italiani come tabelle sorgente.

Questo articolo è stato realizzato con l'assistenza dell'intelligenza artificiale.

Altri articoli

Potrebbero interessarti anche