AI trova 300 zero-day WordPress a $20: il triage umano collassa

Una pipeline AI ha scoperto 300+ vulnerabilità zero-day critiche in plugin WordPress a circa $20 l'una. Il collo di bottiglia non è più la scoperta, ma il tria…

Contenuto

Una pipeline AI sviluppata da ricercatori di TrendAI e CHT Security ha identificato oltre 300 vulnerabilità zero-day critiche nell'ecosistema WordPress in 72 ore di scansione, con un costo stimato di circa 20 dollari per vulnerabilità scoperta. Lo studio, presentato a Ekoparty Miami il 22 maggio 2026, sposta il problema dalla fattibilità tecnica a quella operativa: la verifica manuale di ciascun finding richiede tra i 30 e i 60 minuti, rendendo il modello di disclosure attuale matematicamente insostenibile di fronte a centinaia di segnalazioni generate al secondo.

L'annuncio arriva mentre programmi come Zero Day Initiative e framework di gestione CVE registrano backlog già critici, e il ricercatore Steven Yu di TrendAI avverte che "attori motivati con una carta di credito" possono già replicare queste campagne su larga scala.

Punti chiave

La pipeline AgentForge, sviluppata in 72 ore, ha scoperto oltre 300 zero-day critici in plugin WordPress consumando circa 222 milioni di token su 95 task
Il costo stimato di circa $20 per vulnerabilità dipende dalla bassa qualità del codice medio dell'ecosistema WordPress, non è generalizzabile a codebase enterprise hardened
Una verifica dinamica automatizzata ha eliminato oltre l'80% dei falsi positivi prima della coda di disclosure, ma il triage umano rimane il collo di bottiglia
L'agente AI ha assemblato autonomamente una catena di downgrade attack senza prompt umani o pattern pre-taught, concatenando rollback di versione a flaw exploitabili

Come funziona la pipeline che ha battuto il costo del caffè

Il sistema, denominato AgentForge, integra analisi statica del codice PHP, provisioning Docker automatizzato e verifica dinamica via Chrome DevTools MCP. L'orchestrazione ha consumato circa 222 milioni di token su 95 task per generare oltre 300 vulnerability report validati, traducendosi nel costo medio stimato di circa 20 dollari per finding. Steven Yu, threat research engineer di TrendAI, ha precisato: "This doesn't mean you can easily find a vulnerability in any WordPress site for just $20" — il dato è fortemente condizionato dalla qualità del codebase tipico dell'ecosistema plugin.

La selezione di WordPress come target non è casuale: l'ecosistema conta oltre un milione di plugin, molti mantenuti da singoli volontari senza budget sicurezza. Questo outlier di manutenzione e code review abbassa la barriera economica per la scoperta automatizzata, ma non implica che la stessa efficienza si applichi a software enterprise con cicli di sviluppo hardened.

Il meccanismo economico chiave è il rapporto costo-token per vulnerabilità validata. La pipeline genera candidate vulnerabilities in volume, poi una fase di verifica dinamica — esecuzione reale in ambiente containerizzato — scarta oltre l'80% dei falsi positivi prima che un essere umano tocchi il report. Solo i surviving findings entrano nella coda di triage manuale, dove ogni item blocca un ricercatore per 30-60 minuti.

"We are already in a state where any motivated attacker with a credit card can execute this." — Steven Yu, TrendAI

La catena di downgrade che l'AI ha costruito da sola

Tra i finding segnalati figurano pre-authentication RCE, SQL injection, privilege escalation e SSRF. Il caso più significativo per la valutazione delle capacità autonome dell'agente riguarda un downgrade attack: l'AI ha localizzato una vulnerabilità che permetteva il rollback di un plugin a una versione precedente, ha riconosciuto che quella versione conteneva flaw exploitabili, e li ha concatenati senza prompt manuali o pattern pre-taught.

Questa catena non era stata codificata come obiettivo. L'agente ha identificato il rollback come primitiva utile, mappato la versione target come vulnerabile, e costruito l'exploit path in autonomia. La capacità di ricombinare primitive conosciute in sequenze non previste dai progettisti sposta il problema dalla scoperta di bug noti alla generazione di attack chain novel.

Il plugin interessato da una pre-auth RCE contava oltre 1.000 GitHub stars, indicante una base d'uso non trascurabile. I ricercatori hanno divulgato responsabilmente tutti i finding prima della pubblicazione, ma il tempo di remediation non è stato quantificato — un'informazione che resta non disponibile e che condizionerebbe la valutazione del rischio reale per gli utenti.

Il triage umano: dove l'aritmetica si rompe

Il collo di bottiglia strutturale emerge dai numeri. Trecento vulnerabilità, con 30-60 minuti di verifica manuale ciascuna, richiedono tra 150 e 300 ore-lavoro di esperti qualificati. Una singola campagna AI di 72 ore genera più backlog di quanto un team intero possa smaltire in settimane. E la campagna è replicabile: non richiede infrastruttura proprietaria, non richiede accesso a zero-day market, richiede solo una carta di credito e conoscenza del workflow.

Yu ha evidenziato la conseguenza sistemica: "Organizations such as ZDI and NIST are currently struggling with massive backlogs due to the explosion of AI-assisted vulnerability reports." La disclosure responsabile, pilastro della sicurezza coordinata dal 2000, presuppone che la capacità di segnalazione e la capacità di triage siano approssimativamente in equilibrio. L'AI ha rotto questa simmetria in modo irreversibile.

Il calcolo dei circa $20 per vulnerabilità, inoltre, non include il costo del triage umano. Aggiungere 30-60 minuti di lavoro specializzato moltiplica il price tag di ordini di grandezza, rendendo il modello di disclosure attuale economicamente insostenibile proprio per gli attori white-hat che lo rispettano. Gli attori black-hat, che bypassano la disclosure, operano con costi marginali effettivamente vicini ai $20 stimati.

Cosa fare adesso

Rivalutare il rischio plugin di terze parti nel threat model. L'ecosistema WordPress è ora target primario per scanning AI a costi marginali: i security team devono mappare quali plugin sono mantenuti attivamente e quali sono abandonware con superficie d'attacco esposta.
Isolare i sistemi WordPress da reti sensibili. La probabilità di zero-day non divulgati in plugin popolari è salita in modo strutturale: segmentazione di rete e principio del minimo privilegio riducono il blast radius di compromissioni via plugin.
Monitorare le advisory ZDI e vendor con ritardo consapevole. Il backlog di triage significa che la disclosure coordinata impiegherà tempi più lunghi. Le patch potrebbero arrivare dopo che l'esistenza della vulnerabilità è nota ad attori malevoli.
Prepararsi alla transizione a triage AI-driven. Yu ha proposto "to fight AI magic with AI magic": le organizzazioni di disclosure e i vendor di sicurezza devono investire in sistemi di verifica automatizzata che restringano la coda umana, o il modello di coordinamento vulnerabilità-collassa.

Il problema non è più chi trova i bug, ma chi li smaltisce

La ricerca TrendAI/CHT Security non è un record tecnologico da celebrare o demonizzare. È un punto di non ritorno che rende esplicita un'asimmetria già in atto: la scoperta di vulnerabilità è diventata un processo batchabile a costi di consumo, mentre la verifica, la divulgazione e la remediation restano processi seriali, umani, lenti. L'ecosistema WordPress è il primo caso studio per la sua combinazione di superficie vasta e qualità del codice eterogenea, ma la dinamica è generalizzabile a qualsiasi codebase con caratteristiche simili.

La barriera d'ingresso per la scoperta automatizza è caduta. La barriera d'ingresso per la compromissione di massa è caduta in parallelo, per gli attori che ignorano la disclosure. Ciò che resta in piedi — precario, sovraccarico, numericamente insostenibile — è l'ultimo anello umano della catena. La domanda non è se qualcuno troverà il prossimo zero-day. È se qualcuno avrà il tempo di verificarlo, divulgarlo e patcharlo prima che venga usato.

Yu ha formulato la chiusura del suo intervento con una proposta che suona come ultimatum tecnologico: "Both white-hat and black-hat actors are already implementing these types of actions at scale." La corsa non è chi scopre di più. È chi smaltisce di più, più velocemente.

FAQ

Il costo di $20 per vulnerabilità include anche la verifica manuale?: No. Il calcolo di circa $20 si riferisce solo al consumo di token AI e infrastruttura di scanning. I 30-60 minuti di verifica manuale per vulnerabilità rappresentano un costo aggiuntivo non quantificato nella stima, e costituiscono il collo di bottiglia principale del processo.
I 300+ zero-day trovati sono già sfruttabili da attaccanti?: I ricercatori hanno divulgato responsabilmente i finding prima della pubblicazione, ma non è noto quanti siano già stati patchati né il tempo medio di remediation. L'assenza di exploitation confermata in the wild non esclude che attori malevoli possano indipendentemente scoprire le stesse vulnerabilità.
Questa tecnica funzionerebbe su altri ecosistemi oltre WordPress?: Steven Yu ha esplicitamente limitato il risultato all'ecosistema WordPress per la sua variabilità di qualità del codice. Codebase enterprise con cicli di sviluppo hardened, review sistematica e budget sicurezza non cederebbero vulnerabilità allo stesso tasso né con lo stesso costo marginale.

Fonti

Le informazioni sono state verificate sulle fonti citate e aggiornate al momento della pubblicazione.

Contenuto

Come funziona la pipeline che ha battuto il costo del caffè

La catena di downgrade che l'AI ha costruito da sola

Il triage umano: dove l'aritmetica si rompe

Cosa fare adesso

Il problema non è più chi trova i bug, ma chi li smaltisce

FAQ

Fonti

Fonti

Link utili