Agenti AI: solo 11% sicuri, il 98% è una trappola

Il benchmark AIRQ Q2 2026 di Adversa AI su 100 agenti commerciali rivela la power-protection inversion: più capacità, meno difese. Il 38% agisce prima che il

Contenuto

Il 3 giugno 2026 Adversa AI pubblica il report AIRQ Q2 2026, benchmark su cento agenti AI commerciali e pubblici. Il risultato: solo undici superano la soglia minima di sicurezza, mentre il 98% presenta la combinazione strutturale di accesso a dati privati, esposizione a contenuti non attendibili e capacità di azioni outbound.

Punti chiave

Solo l'11% dei cento agenti testati rientra nel quadrante Fortified Leaders, la classe "capable well-defended".
Il 98% presenta la "lethal trifecta": accesso a dati privati + esposizione a contenuti non attendibili + azioni outbound.
I computer agents registrano punteggio zero su validazione output, blocco canali esfiltrazione e sanitizzazione rendering.
Il 38% degli agenti completa azioni irreversibili prima che qualsiasi percorso di monitoraggio possa attivarsi; il tool execution spiega da solo il 76% del blast radius.

"Coding agents don't just write code – they touch shell, dependencies, and tokens long before a diff lands in review."

La lethal trifecta e l'architettura del rischio

La "lethal trifecta" non è un bug software ma una caratteristica architetturale. I tre componenti — private data access, exposure to untrusted content, ability for outbound actions — compaiono nel 98% degli agenti testati, secondo entrambe le fonti primarie. Otto delle dieci classi di agenti mostrano esposizione del 100%; solo General Assistant Agents e Data Engineering Agents presentano un'eccezione ciascuna.

La combinazione rende l'indirect prompt injection un vettore di attacco sistemico. Un singolo documento, email o pagina web avvelenata può prendere controllo dell'agente e muoversi lateralmente attraverso i sistemi raggiungibili. "Prompt injection has no deterministic fix — no classifier reliably separates the agent's data from its instructions, and vendors concede it", afferma il report.

Il "confirmation mismatch" amplifica la vulnerabilità. Il controllo di approvazione interattiva mostra all'utente l'apparenza dell'azione, non l'azione reale. "The deeper issue is that the desktop confirmation step looks like a control while being unreliable in practice", documenta il report. L'umano che clicca "conferma" non verifica l'output effettivo ma una rappresentazione filtrata dell'intento dell'agente.

Power-protection inversion: la legge del mercato agentico

Il meccanismo centrale del report è la "power-protection inversion", descritta come "structural feature of the market, not a handful of outliers". I vendor competono sulla capability, che richiede più potenza — accesso OS, shell, deployment pipeline — ma questa stessa potenza espande l'attack surface mentre le difese rimangono sottili.

I dati quantitativi confermano l'inversione. I computer agents, prima classe per potenza operativa, registrano punteggio medio di output guardrail esattamente zero: zero su validazione output, zero su blocco canali esfiltrazione, zero su sanitizzazione rendering. "A compromise hands the attacker the user's entire machine, not just one application or tab". Il blast radius si estende al sistema operativo completo.

I coding agents replicano il pattern. Secondo i dati di Help Net Security, che cita Eugene Neelou, AIRQ Project Lead: "Our data shows that coding agents and computer agents rank as the top 2 highest attack surfaces, top 2 highest blast radius, and top 2 lowest defense controls". La posizione seconda per capability e ottava per difesa non è anomalia ma coerenza con la legge di mercato.

Il tool execution è il predittore dominante del blast radius. Da solo spiega il 76% del blast radius, secondo i dati del report. Non è l'LLM in sé a determinare la pericolosità ma la capacità dell'agente di eseguire operazioni su sistemi esterni attraverso strumenti collegati.

Il buco nero della verificabilità e la topologia delle difese

L'83% delle difese AI agent dichiarate non è pubblicamente verificabile, secondo entrambe le fonti primarie. I vendor affermano capacità difensive che non possono essere controllate indipendentemente. Il 37% del mercato è classificato come "audited more than defended" — forte su logging e osservabilità, debole su prevenzione e limitazione dei danni.

Le difese che funzionano sono documentate e testabili. La sandboxing documentata riduce il rischio residuo di circa 2,6 volte; l'isolamento cloud o container di circa 6 volte. Questi numeri emergono da test comparativi nel benchmark. La differenza tra sandboxing "dichiarata" e sandboxing "testata" è il discrimine: la prima appartiene all'83% non verificabile, la seconda alla minoranza effettivamente protetta.

Il 38% degli agenti completa azioni irreversibili prima che qualsiasi percorso di monitoraggio possa attivarsi. Il monitoraggio, anche quando presente, è progettato per registrare non per bloccare. La sequenza temporale — azione irreversibile prima di rilevazione — rende il logging una testimonianza postuma, non una difesa.

Cosa fare adesso

Per i team di sicurezza, il report AIRQ Q2 2026 traduce in azioni specifiche tre priorità concrete.

Primo: verificare la sandboxing, non accettarla dichiarata. Il 2,6x e il 6x di riduzione rischio si applicano solo a sandboxing "documentata e testata", non a promesse di marketing. Richiedere evidenza di test indipendenti su isolamento cloud o container.

Secondo: trattare i coding agents e i computer agents come procurement ad alto rischio, non come strumenti self-serve. Eugene Neelou, AIRQ Project Lead, afferma che questi agenti "bypass procurement gates" tramite bottom-up adoption. Il CISO deve inserirli in flussi di approvazione espliciti prima dell'uso in produzione.

Terzo: assumere che il monitoraggio non blocchi. Il 38% di azioni irreversibili pre-monitoraggio significa che logging e alerting non sono difese ma strumenti forensi. La priorità va a controlli su egress, identità e azioni irreversibili — le "gambe che si possono controllare", nella formulazione del report: "Defend the legs you can own, not the one you can't".

Quarto: ricalibrare il modello di responsabilità condivisa. Neelou avverte che "a final agentic product deployed by the buyer often has a different security posture than a default platform configuration". La configurazione di default del vendor non garantisce la postura di sicurezza dell'istanza deployata dall'acquirente.

Il mercato che premia la potenza, non la protezione

Il report AIRQ Q2 2026 non identifica vendor sicuri da preferire: l'11% di Fortified Leaders non è nominato, e l'83% di difese non verificabili rende impossibile una classifica di fiducia. Il valore del benchmark sta nel rivelare una legge strutturale: il mercato agentico premia la capability e penalizza la protezione in modo sistematico, non come difetto di singoli prodotti.

La "power-protection inversion" non ha soluzione tecnologica immediata nel report. La risposta proposta è organizzativa: procurement controllato, verifica delle sandboxing, e accettazione che il prompt injection non ha "deterministic fix". La sicurezza agentica, almeno nel 2026, è gestione del rischio residuo, non eliminazione del rischio.

Fonti

Le informazioni sono state verificate sulle fonti citate e aggiornate al momento della pubblicazione.