Davide Cocozza·17 giugno 2026

Come automatizzare la due diligence legale con AWS Bedrock

TL;DR

Per automatizzare la due diligence legale, si costruisce una pipeline su AWS che combina il servizio Bedrock per l'accesso a modelli AI come Claude 3.5 Sonnet, un vector database self-hosted come Qdrant per l'archiviazione sicura dei dati, e LangGraph per orchestrare il processo. Questa architettura riduce le ore di revisione manuale del 40-70% e garantisce la residenza dei dati in UE, in conformità con GDPR e AI Act.

La due diligence legale è un processo critico ma estremamente laborioso. Per un'operazione di M&A di media complessità, la revisione manuale dei documenti richiede tra 200 e 800 ore-avvocato, un costo enorme che rallenta i deal. L'intelligenza artificiale generativa offre una soluzione concreta per abbattere questi costi e accelerare le tempistiche, senza compromettere la sicurezza.

40-70%

Riduzione ore-avvocato per la revisione

6-18 mesi

ROI stimato per studi legali enterprise

100%

Residenza dati in UE con VPC privata

$10-50

Costo LLM per analizzare 1.000 documenti

Questo articolo è una guida tecnica per studi legali enterprise e grandi aziende che vogliono costruire un sistema di due diligence automatizzata, scalabile e sicuro utilizzando l'ecosistema AWS.

Qual è l'architettura di riferimento su AWS?

Costruire una pipeline di analisi documentale efficace richiede un'architettura a più livelli, progettata per garantire sicurezza, scalabilità e auditabilità. L'obiettivo è trasformare documenti non strutturati (PDF, Word, email) in insight strutturati e azionabili, mantenendo il pieno controllo dei dati sensibili.

L'architettura di riferimento si basa su sei componenti principali orchestrati all'interno di un Virtual Private Cloud (VPC) su AWS.

Fase 1: Ingestion e Parsing

I documenti vengono caricati su un bucket Amazon S3. Un trigger AWS Lambda avvia il processo per ogni nuovo file. Per i PDF scansionati si utilizza Amazon Textract per l'OCR, mentre per i PDF nativi si usano librerie come PyMuPDF. L'output è testo pulito e strutturato.

Fase 2: Chunking ed Embedding

Il testo viene suddiviso in "chunk" semantici, tipicamente di 512-1024 token con una sovrapposizione del 10-15%. Questi chunk vengono poi trasformati in vettori numerici (embeddings) tramite un modello specifico come Amazon Titan Embeddings V2, disponibile su Bedrock.

Fase 3: Storage Vettoriale Sicuro

I vettori vengono archiviati in un database vettoriale Qdrant open-source, deployato su ECS Fargate o EC2 all'interno di una VPC privata. Questa configurazione self-hosted è cruciale: garantisce che i vettori dei documenti confidenziali non lascino mai il perimetro di sicurezza aziendale, un requisito fondamentale per la compliance GDPR.

Fase 4: Orchestrazione con LangGraph

LangGraph, un'estensione di LangChain, modella il workflow di analisi come un grafo di stati. Ogni nodo rappresenta un'azione: recuperare i chunk rilevanti da Qdrant, costruire un prompt complesso, interrogare il modello AI, analizzare i rischi, e decidere i passi successivi. Questo approccio permette di gestire logiche complesse e di inserire punti di validazione umana (human-in-the-loop).

Fase 5: Retrieval e Generazione (RAG)

L'agente LangGraph recupera da Qdrant i chunk di testo più pertinenti alla domanda dell'utente (es. "trova tutte le clausole di limitazione di responsabilità"). Questi chunk vengono inseriti nel contesto di un prompt inviato a un foundation model su AWS Bedrock, come Claude 3.5 Sonnet. Il modello, grazie al contesto fornito, genera risposte precise basate esclusivamente sui documenti analizzati.

Fase 6: Generazione del Report

L'output del modello viene formattato in un report strutturato (JSON, Word, PDF) che evidenzia i rischi, riassume le clausole chiave e fornisce riferimenti diretti ai documenti originali.

📝Automazione dei Processi Complessi

L'approccio descritto per la due diligence è applicabile a molti altri processi aziendali che richiedono l'analisi di grandi volumi di documenti. Datazen ha applicato principi simili per automatizzare la gestione dei ticket di supporto e la qualificazione dei lead, come illustrato nel nostro caso studio sull'automazione del CRM.

Come gestire sicurezza e compliance GDPR/AI Act?

Per gli studi legali, la sicurezza dei dati non è un'opzione. Un sistema di automazione AI deve essere progettato con un approccio "security-by-design", rispettando normative come il GDPR e il nuovo AI Act UE.

Garanzie di AWS Bedrock

A differenza di altre API, AWS Bedrock garantisce, come riportato nella sua documentazione ufficiale, che i dati inviati non vengano utilizzati per addestrare i modelli di base. Le chiamate API possono essere fatte verso endpoint nelle region UE come Francoforte (eu-central-1), garantendo che l'elaborazione avvenga all'interno del territorio europeo.

Controllo Totale con VPC e Qdrant

La vera fortezza del sistema è la combinazione di una VPC privata e Qdrant self-hosted.

Isolamento di Rete: La VPC isola le risorse (cluster ECS per Qdrant, Lambda) dal traffico internet pubblico.
Data Residency: I vettori, che sono rappresentazioni dei documenti, risiedono esclusivamente nel database Qdrant all'interno della VPC. Non escono mai dal controllo dello studio legale. Puoi consultare la documentazione di Qdrant per maggiori dettagli sulle opzioni di deployment.
Cifratura: Tutti i dati, sia a riposo (in S3 e Qdrant) che in transito, vengono cifrati utilizzando AWS Key Management Service (KMS) con chiavi gestite dal cliente.

Conformità all'AI Act e ISO 27001

Il Regolamento UE 2024/1689 (AI Act), pienamente applicabile da agosto 2026, classifica i sistemi AI in base al rischio. Un tool di supporto alla due diligence, dove la decisione finale resta in capo a un avvocato, rientra generalmente in un profilo di rischio limitato. È tuttavia obbligatorio documentare l'architettura e i processi di governance.

💡Il Ruolo Cruciale della Supervisione Umana

L'automazione non sostituisce l'avvocato, ma lo potenzia. Il sistema AI identifica e classifica i rischi, ma la validazione finale deve essere umana. Questo approccio "human-in-the-loop", facilmente implementabile con LangGraph, non solo migliora l'accuratezza ma è anche un fattore chiave per ridurre il rischio normativo secondo l'AI Act.

Infine, per i clienti enterprise è spesso richiesta la certificazione ISO 27001. Mentre i servizi AWS sono già certificati, lo studio legale deve estendere il proprio perimetro di certificazione per includere i nuovi processi e le componenti self-hosted come Qdrant.

Quale modello scegliere su AWS Bedrock?

La scelta del Large Language Model (LLM) è determinante per la qualità dell'analisi. AWS Bedrock offre accesso a diversi modelli, ma per i casi d'uso legali, alcuni sono più adatti di altri. Claude 3.5 Sonnet di Anthropic è attualmente una delle migliori opzioni per la sua ampia finestra di contesto, le performance elevate nell'analisi di documenti complessi e un costo competitivo.

Ecco un confronto qualitativo dei principali modelli disponibili:

Modello	Punti di Forza	Costo Indicativo (Input)	Ideale Per
Claude 3.5 Sonnet (Anthropic)	Finestra di contesto da 200K token, alta precisione su testi lunghi, eccellente nel reasoning.	$3 / 1M token	Analisi di contratti complessi, M&A, due diligence approfondite.
Amazon Titan Text Premier	Modello proprietario AWS, ottimizzato per l'ecosistema, buone capacità di riassunto.	Variabile, competitivo	Riassunti esecutivi, classificazione documentale, task di routine.
Llama 3 (Meta)	Performance elevate per un modello open-source, forte supporto della community.	$0.40 - $2.50 / 1M token	Task generalisti, chatbot interni, estrazione di entità specifiche.
Mistral Large (Mistral AI)	Ottime capacità multilingua (incluso l'italiano), buon bilanciamento performance/costo.	$8 / 1M token	Due diligence su documenti in più lingue, analisi di mercato EU.

Per la maggior parte dei progetti di due diligence in contesti italiani, Claude 3.5 Sonnet rappresenta la scelta più bilanciata e performante, soprattutto per la sua capacità di gestire la complessità e le sfumature del linguaggio legale.

Limiti e considerazioni strategiche

Nessuna tecnologia è una bacchetta magica. Prima di investire in un sistema di due diligence automatizzata, è fondamentale comprenderne i limiti.

Non è per tutti: L'investimento iniziale per la progettazione e l'implementazione (circa €80k-150k) ha senso per studi legali o aziende che gestiscono un volume significativo di deal (es. 10+ M&A all'anno).
Qualità dei dati: Il sistema è efficace solo quanto i documenti che analizza. PDF di bassa qualità, scansionati male o scritti a mano richiederanno un pre-processing più intensivo e potrebbero generare errori.
Richiede expertise: La gestione dell'architettura richiede competenze specifiche su AWS, AI e metodologie DevOps. Non è un prodotto "chiavi in mano", ma un sistema su misura.
È uno strumento di supporto: Come sottolineato, l'AI non emette pareri legali. Potenzia l'avvocato, che rimane il responsabile ultimo della valutazione.

“

I modelli di linguaggio di grandi dimensioni non sostituiranno gli avvocati, ma gli avvocati che usano l'AI sostituiranno quelli che non la usano. La due diligence è il primo ambito dove questo divario diventa economicamente misurabile.

Richard Susskind (parafrasato)

Esperto di trasformazione digitale legale

L'automazione della due diligence non è più un'opzione futuristica, ma una necessità strategica per rimanere competitivi.

Vuoi implementare un sistema di automazione AI?

Il nostro team progetta e sviluppa pipeline AI su misura per clienti enterprise. Prenota una call gratuita per discutere le tue esigenze.

Richiedi Consulenza Gratuita

Domande frequenti

No, assolutamente. Il sistema è progettato per agire come un potentissimo assistente per gli avvocati. Automatizza la parte più ripetitiva e dispendiosa in termini di tempo del lavoro: la lettura e la classificazione iniziale dei documenti. L'AI può analizzare migliaia di pagine in pochi minuti per identificare clausole rischiose, ma la valutazione strategica, l'interpretazione del contesto e la decisione finale restano di competenza esclusiva del professionista legale. Questo modello di "human-in-the-loop" è anche fondamentale per la conformità con l'AI Act.

Per i dati legali, la sovranità e la sicurezza sono prioritarie. Un servizio di vector database completamente gestito potrebbe archiviare i dati in cluster multi-tenant o in regioni geografiche non desiderate. Optare per Qdrant self-hosted su istanze EC2 o ECS all'interno di una VPC privata offre il massimo controllo. Garantisce che i vettori dei documenti, che sono a tutti gli effetti dati sensibili, non lascino mai il perimetro di rete definito e controllato dall'azienda, rispettando i più stringenti requisiti di data residency e GDPR.

Secondo il Regolamento (UE) 2024/1689, i sistemi AI sono classificati in base al rischio. Un sistema di due diligence che funge da supporto decisionale per un professionista qualificato (l'avvocato), che mantiene la supervisione e la responsabilità finale, rientra generalmente nella categoria a "rischio limitato". Non è considerato ad "alto rischio" perché non prende decisioni autonome con impatto diretto sui diritti fondamentali delle persone. Tuttavia, l'AI Act impone obblighi di trasparenza, come informare gli utenti che stanno interagendo con un sistema AI, e richiede una solida documentazione tecnica.

Lo standard ISO 27001 riguarda la gestione della sicurezza delle informazioni (ISMS). AWS, come provider, è certificato ISO 27001 per i suoi data center e servizi. Tuttavia, quando un'azienda implementa una soluzione custom come questa, la responsabilità della compliance si estende. L'azienda o lo studio legale deve includere la nuova architettura (le istanze EC2/ECS con Qdrant, i bucket S3, le policy IAM) all'interno del proprio perimetro di certificazione ISMS, definendo policy di sicurezza, piani di backup e procedure di gestione degli accessi per i nuovi componenti.

Questo articolo è stato realizzato con l'assistenza dell'intelligenza artificiale.

Altri articoli

Potrebbero interessarti anche