OWASP: prompt injection domina 6/10 fallimenti agentic AI

Il report OWASP v2.01 cataloga CVE reali e attacchi nel wild: la prompt injection ha vinto come vettore dominante dei fallimenti agentic, con contromisure che

Il 11 giugno 2026 l'OWASP GenAI Security Project pubblica la versione 2.01 dello State of Agentic AI Security and Governance. Il salto di qualità rispetto all'edizione 2025 è netto: da catalogo di minacce plausibili a registro di CVE, advisory vendor e breach report legati a quasi ogni categoria di rischio agentico. La prompt injection emerge come la tecnica che aggrega la maggior parte degli incidenti in produzione, con sei categorie su dieci del nuovo OWASP Top 10 for Agentic Applications che le riconducono la propria origine.

Punti chiave

6 delle 10 categorie del OWASP Top 10 for Agentic Applications hanno origine in tecniche di prompt injection, secondo il report v2.01 pubblicato l'11 giugno 2026
87% delle pull request generate da coding agent nei test di DryRun Security conteneva almeno una vulnerabilità, con 143 falle totali in 38 scan di 30 PR
Google ha rilevato un incremento del 32% dell'attività malevola IPI (indirect prompt injection) tra novembre 2025 e febbraio 2026 sull'archivio CommonCrawl
Sette progetti nella survey OWASP rilasciano aggiornamenti giornalieri o più frequenti; trycua/cua ha mediato un rilascio ogni 8 ore, superando la cadenza delle pipeline SCA tradizionali

Da minaccia teorica a CVE catalogata: la velocità del cambiamento

L'edizione 2025 del report OWASP descriveva scenari prefigurativi. L'edizione 2026 conta fatti concreti. Tre CVE sono citate nel nucleo del documento: CVE-2025-6514 con punteggio CVSS 9.6, relativa a un'infrastruttura MCP core usata da centinaia di migliaia di sviluppatori; CVE-2026-22708 contro Cursor, che consente il poison dell'execution environment per eseguire payload arbitrari tramite comandi in allowlist; CVE-2025-59532 contro Codex CLI, dove l'output dell'agente può ridefinire i confini della sandbox. Secondo il report, la severità è critical per le prime due; la terza non ha ancora punteggio assegnato nel National Vulnerability Database.

La frequenza di rilascio degli strumenti agentici è un dato operativo che il report non sottovaluta. Di 53 progetti tracciati dall'OWASP State of AI Surveyor, 28 sono coding agent. I cinque a più rapida crescita — Claude Code, Gemini CLI, Codex, Cline, Aider — rientrano tutti in questa categoria. Sette progetti nella survey rilasciano aggiornamenti giornalieri o più frequenti. trycua/cua ha mediato un rilascio ogni 8 ore. Questa cadenza, secondo la lettura OWASP, supera la capacità di risposta delle pipeline SAST e SCA tradizionali, progettate per cicli di settimane o mesi.

"One technique ties most of these incidents together: prompt injection" — OWASP GenAI Security Project, State of Agentic AI Security and Governance v2.01

Perché l'architettura LLM non distingue comandi da dati

La causa strutturale del dominio della prompt injection è architetturale, non implementativa. Gli LLM trattano system prompt, user request e text retrieved da fonti esterne come un unico stream di token. Non esiste, nel design fondamentale, un boundary hardware o software che separi istruzioni legittime da contenuto ostile. Quando questo stream viene processato da un agente con tool access — capacità di inviare email, eseguire comandi terminal, processare pagamenti — il contenuto iniettato si traduce in azione concreta senza intervento umano.

Simon Willison ha definito questa condizione la "lethal trifecta": accesso a dati privati, esposizione a contenuto non trusted, abilità di comunicare esternamente. Secondo la citazione riportata nel report, "any agent that combines three properties [...] can be turned into an exfiltration tool by a single injected prompt". Meta ha risposto con la "Agents Rule of Two": un agente senza approvazione umana può soddisfare solo due delle tre proprietà. La regola non risolve il problema architetturale; lo circoscrive come euristica di contenimento.

L'impatto della lethal trifecta non è teorico. Forcepoint X-Labs ha rilevato payload IPI per frode finanziaria mirati a PayPal e Stripe. I ricercatori osservano che "an agentic AI that can send emails, execute terminal commands or process payments becomes a high-impact target" e che l'impatto scala con i privilegi dell'AI. Google, dal canto suo, ha misurato un incremento del 32% dell'attività malevola IPI tra novembre 2025 e febbraio 2026 sull'archivio CommonCrawl.

Coding agent: velocità di sviluppo, debito di sicurezza

I coding agent sono la categoria dominante per volumetria e per dati di attacco. James Wickett, CEO di DryRun Security, è citato nel report con la dichiarazione: "AI coding agents can produce working software at incredible speed, but security isn't part of their default thinking". Lo studio DryRun ha sottoposto Claude Code, Codex e Gemini a 38 scan di 30 pull request. Il risultato: 143 vulnerabilità totali, con tasso dell'87% di PR contenenti almeno una vulnerabilità.

Il pattern delle falle replica errori decennali. Broken access control è universale nei codebase generati. WebSocket authentication manca in tutti i progetti testati. JWT secrets hardcoded ricorre sistematicamente. La velocità di generazione non compensa la regressione su pratiche consolidate. Cinque repository concentrano il maggior numero di advisory di sicurezza: n8n con 57, Claude Code con 22, AutoGPT con 15, Dify con 13, Roo-Code con 11.

L'incidente Replit del 2025 funziona da caso limite senza intento malevolo. Un coding assistant ha cancellato un database di produzione senza ricevere istruzioni ostili. Il report OWASP lo cita per dimostrare che safety e security condividono lo stesso modello di permessi: quando l'agente ha autorità sufficiente, l'errore accidentale e l'attacco deliberato convergono sullo stesso esito.

Supply chain e gateway AI: hackerbot-claw come esempio di blast radius

Il report collega la prompt injection a vettori di attacco adiacenti attraverso la logica della posizione di trust. Il caso LiteLLM, documentato nelle fonti collegate, illustra il meccanismo. A febbraio 2026 l'attore TeamPCP ha sfruttato misconfigurazioni GitHub Actions; a marzo ha rubato token PyPI di LiteLLM tramite Trivy compromesso ad Aqua Security. Due versioni backdoor (1.82.7 e 1.82.8) sono state caricate su PyPI il 24 marzo 2026, con circa 47.000 download in 3 ore prima della rimozione. LiteLLM funge da gateway per ecosistemi come CrewAI, DSPy e GraphRAG. La compromissione non è tecnicamente una prompt injection, ma amplifica il blast radius di ogni prompt injection riuscita: un gateway infetto può propagare input manipolati a valle senza che gli strumenti di rilevamento endpoint li isolino.

Perché è importante

Il report OWASP traccia 42 strumenti normativi in 10 giurisdizioni, con finestre di notifica che vanno da 4 ore (DORA) a 15 giorni (SB 53 California). Queste scale temporali si applicano a incidenti dove la distinzione tra safety e security è architettonicamente indistinguibile, come dimostra il caso Replit. La fonte non specifica se normative già in vigore abbiano causato sanzioni per violazioni legate a prompt injection.

Il dato IBM citato nel report indica che solo 37% delle organizzazioni dispone di policy per rilevare Shadow AI. Russ Fradin, CEO Larridin, è citato con la constatazione che "the C-suite believes AI is visible, valuable, and under control, while adoption is racing ahead of measurement and governance is inconsistent". Il report non quantifica la correlazione diretta tra assenza di policy e incidenti confermati.

Sul fronte delle contromisure, il dossier non documenta fix strutturali alla vulnerabilità architetturale degli LLM. Le lethal trifecta di Willison e la Rule of Two di Meta sono euristiche comportamentali, non patch. L'architettura a stream unificato di token persiste. Il report non elenca mitigazioni operative specifiche né protocolli di risposta standardizzati per incidenti di prompt injection.

Il brief non specifica quanti degli 87% di PR vulnerabili siano stati effettivamente sfruttati in produzione, né quantificazione dell'impatto reale di hackerbot-claw oltre i download. Non è chiaro se la predominanza della prompt injection nei fallimenti agentici sia espressa in percentuale assoluta di incidenti o in prevalenza qualitativa nella taxonomia OWASP. La distribuzione esatta tra direct prompt injection, indirect prompt injection e altri vettori non è quantificata.

Domande frequenti

La prompt injection è un problema risolvibile con filtri sui prompt?

Il report OWASP non cita filtri prompt-based come contromisura efficace. La causa radicale è architetturale: l'assenza di boundary tra istruzioni e dati nello stream di token. Le contromisure documentate sono euristiche di contenimento (limitazione privilegi, approvazione umana), non filtri.

I coding agent sono più rischiosi degli altri tipi di agente?

Secondo il report, i coding agent rappresentano 28 dei 53 progetti tracciati e i cinque tool a più rapida crescita. Sono la categoria dominante per volumetria e per dati di vulnerabilità empirici (143 falle in studio controllato), ma il report non afferma che siano intrinsecamente più rischiosi per design.

Esiste un fix strutturale alla vulnerabilità architetturale?

Il dossier non documenta fix strutturali. La Meta Rule of Two e la lethal trifecta di Willison sono euristiche di contenimento che riconoscono l'impossibilità di risoluzione a breve termine. Nessuna patch o revisione architetturale è citata come prospettiva concreta.

Le informazioni sono basate sull'advisory citato e aggiornate al momento della pubblicazione.

Fonti

Le informazioni sono basate sulla fonte citata e aggiornate al momento della pubblicazione.

Fonti

Fonti e riferimenti

Da minaccia teorica a CVE catalogata: la velocità del cambiamento

Perché l'architettura LLM non distingue comandi da dati

Coding agent: velocità di sviluppo, debito di sicurezza

Supply chain e gateway AI: hackerbot-claw come esempio di blast radius

Perché è importante

Domande frequenti

Letture correlate

Fonti

Fonti