Anthropic: 10.000 flaw AI, paralisi da patching

Project Glasswing ha trovato oltre 10.000 vulnerabilità critiche in un mese. I vendor non riescono a stare al passo: 97 patch e 88 advisory su migliaia di scop…

Contenuto

Anthropic: 10.000 flaw AI, paralisi da patching Anthropic ha reso pubblico il 22 maggio 2026 che Project Glasswing, alimentato dal modello Claude Mythos Preview, ha generato oltre 10.000 segnalazioni di vulnerabilità di gravità alta o critica in software ampiamente utilizzato. Di queste, 6.202 impattano più di 1.000 progetti open-source, ma solo 1.726 sono state validate come true positive dai partner e 1.094 classificate effettivamente di gravità alta o critica. Il divario tra scoperta e correzione è cresciuto a dismisura: 97 finding patchati upstream e 88 advisory emessi, su un mese di attività.

Punti chiave

Project Glasswing ha prodotto oltre 10.000 candidati vulnerabilità alta/critica in circa un mese dal lancio; la validazione umana ha confermato il 17% circa come true positive
Oracle ha annunciato il passaggio a cicli di patch mensili per le questioni critiche in risposta al volume generato da Mythos
Mozilla ha risolto 271 vulnerabilità in Firefox scoperte durante la valutazione con il modello Anthropic
Anthropic stessa avverte che la facilità di trovare flaw rispetto alla difficoltà di fixarli costituisce "una sfida maggiore per la cybersecurity"

Come funziona la pipeline Glasswing-Mythos

Claude Mythos Preview non è accessibile al pubblico. Circa 50 partner, tra cui Microsoft, Apple, Mozilla, Oracle e Google, operano con accesso limitato attraverso Project Glasswing. Il modello esegue analisi del codice sorgente a scopo di vulnerability discovery su larga scala, generando candidati che vengono poi sottoposti a validazione manuale o semiautomatica prima della disclosure ai vendor.

XBOW, piattaforma di sicurezza offensiva autonoma, ha definito Mythos Preview un "major advance" rispetto ai modelli precedenti nella capacità di individuare candidati vulnerabilità. La valutazione non specifica tuttavia se basata su test diretti o su dati condivisi da Anthropic. Il flusso operativo prevede integrazione nei cicli di disclosure coordinata e, dove possibile, nella produzione di patch upstream.

I numeri della disclosure: tra volume e filtro

I dati aggregati forniti da Anthropic il 22 maggio mostrano una piramide di risultati: oltre 10.000 segnalazioni iniziali di gravità alta o critica, 6.202 effettivamente classificate in questa fascia per più di 1.000 progetti open-source, 1.726 validate come true positive dai partner, 1.094 di queste ultime classificate alta o critica. Il tasso di falsi positivi tra i candidati iniziali non è specificato nelle fonti, né è chiaro quante segnalazioni siano duplicate tra progetti diversi.

Tra le scoperte convalidate spicca CVE-2026-5194 in WolfSSL, con punteggio CVSS 9.1. La vulnerabilità potrebbe consentire a un attaccante di forgiare certificati e impersonare un servizio legittimo. Non è confermato che la falla sia sfruttata attivamente nel campo. Il dato su 97 finding patchati upstream e 88 advisory emessi misura il collo di bottiglia operativo più che l'efficacia del rilevamento.

"The relative ease of finding vulnerabilities compared with the difficulty of fixing them amounts to a major challenge for cybersecurity" — Anthropic, nella disclosure del 22 maggio 2026

La risposta dei vendor: record di patch e ricalibri ciclici

I vendor software stanno accelerando i cicli di patch in risposta al volume. Mozilla ha utilizzato Mythos per trovare e risolvere 271 vulnerabilità in Firefox 150, come riferito da Bruce Schneier sulla base di dichiarazioni dell'azienda. Oracle ha annunciato il passaggio a un ciclo di patch mensile per le questioni critiche, citando esplicitamente il lavoro con Glasswing. Microsoft ha rilasciato aggiornamenti per 118 vulnerabilità nel maggio 2026, di cui 16 critiche, in un Patch Tuesday che KrebsOnSecurity colloca nel trend di volumi record.

La raccomandazione di Anthropic è netta: "Network defenders should shorten their patch testing and deployment timelines". La compressione dei tempi di test, però, introduce tensione con la stabilità dei sistemi. I team di remediation devono gestire un volume crescente di advisory con risorse che non crescono proporzionalmente. La visibilità aumentata non si traduce automaticamente in esposizione ridotta.

Cosa fare adesso

Le organizzazioni devono agire su quattro fronti prioritari, sulla base delle evidenze disponibili:

Ridurre i cicli di patch critico a 72 ore o meno dove possibile, accettando il rischio calcolato di regressione minore rispetto all'esposizione a flaw già divulgati e potenzialmente analizzabili anche da attori malevoli con strumenti AI simili
Segmentare la prioritizzazione in base alla presenza di exploit pubblici e alla superficie di attacco esposta, non solo al punteggio CVSS: il volume richiede triage aggressivo
Monitorare gli advisory Glasswing-specific dei vendor partner, che possono precedere o accompagnare le release standard: Oracle mensile e i record Mozilla/Microsoft indicano una corsa che bypassa le cadenzature tradizionali
Valutare l'integrazione di analisi statica AI-assisted nei propri SDLC, riconoscendo che il vantaggio competitivo non sta nella scoperta ma nella velocità di remediation rispetto agli adversari che useranno strumenti equivalenti

Il vero rischio: asimmetria offensiva nella finestra di esposizione

La disclosure di Anthropic documenta una capacità di scoperta che sovrasta la capacità di correzione dell'ecosistema. Questa asimmetria è il nucleo del problema: gli strumenti AI per il vulnerability discovery si diffonderanno, probabilmente anche in ambienti non autorizzati, mentre le infrastrutture di patch restano vincolate da processi umani, test di regressione, e coordinazione vendor. La finestra di esposizione tra scoperta e correzione si allarga proprio quando la visibilità è massima.

Anthropic non rilascia Mythos al pubblico, ma la logica è replicabile. Il trasferimento di conoscenza da modelli frontier a piattaforme offensive autonome è già in corso, come testimonia la valutazione di XBOW. Le organizzazioni che misureranno il successo di security sul numero di vulnerabilità trovate piuttosto che su quelle chiuse in tempo utile rischieranno di costruire un catalogo di esposizioni, non una difesa.

Domande frequenti

Perché solo 1.726 true positive su oltre 10.000 segnalazioni?

Il metodo di validazione non è dettagliato nelle fonti. Il divario probabilmente riflette filtri di gravità iniziali sovrastimati, candidati duplicati tra progetti, e la necessità di verifica umana prima della classificazione definitiva. Non è noto il tasso esatto di falsi positivi.

Mythos Preview è disponibile per test interni?

No. Circa 50 partner selezionati hanno accesso attraverso Project Glasswing. Non è indicata una timeline di rilascio pubblico.

Le 10.000+ vulnerabilità sono tutte exploitabili?

No. Solo 1.726 sono state validate come true positive, e 1.094 di queste classificate alta o critica. La cifra iniziale rappresenta candidati generati dal modello, non flaw confermati e sfruttabili.

Le informazioni sono state verificate sulle fonti citate e aggiornate al momento della pubblicazione.