BadBone: backdoor AI dormiente sfugge a 6 difese di sicurezza

La ricerca BadBone dimostra che un backdoor in modelli AI pre-addestrati resta invisibile finché non viene personalizzato: 0,10% di successo senza trigger, ~99…

Contenuto

BadBone: backdoor AI dormiente sfugge a 6 difese di sicurezza Un team di ricercatori ha presentato BadBone, un attacco che inserisce backdoor dormienti nei modelli AI backbone pre-addestrati: il modello supera i controlli di sicurezza standard con un tasso di attacco dello 0,10%, identico a un modello pulito, ma attiva il comportamento malevolo al ~99% dopo la personalizzazione tramite prompt learning. La ricerca, riportata il 2 giugno 2026 da Help Net Security, dimostra che sei difese esistenti falliscono sistematicamente nel rilevare la minaccia nel momento in cui il modello viene scaricato e verificato.

Punti chiave

Il backdoor BadBone richiede due condizioni simultanee per attivarsi: personalizzazione del modello tramite prompt learning e presenza di un input trigger specifico.
Senza personalizzazione, il tasso di successo dell'attacco è dello 0,10%, rendendo il modello indistinguibile da uno pulito durante le verifiche pre-acquisto.
Sei difese esistenti (Neural Cleanse, ABS, MNTD, NAD, CLP, D-BR) falliscono nel rilevare il backdoor nella maggior parte delle configurazioni testate.
L'attaccante non necessita dei dati della vittima: un dataset surrogato con contenuto simile è sufficiente per preparare l'attacco.

Il meccanismo della co-attivazione: due condizioni, un unico momento di esposizione

Il paper di ricerca definisce il meccanismo "prompt-and-trigger co-activation". Il backdoor resta dormiente nel modello backbone finché non si verificano entrambe le condizioni: la personalizzazione per un task downstream tramite prompt learning e l'inserimento del trigger nell'input. Questa separazione temporale è il cuore dell'attacco. Le difese esistenti testano il modello nello stato in cui viene scaricato, prima della personalizzazione. In quello stato, il backdoor è inerte. I test sperimentali documentano la bivalenza del comportamento. Su immagini triggerate, il modello avvelenato senza personalizzazione classifica come un modello pulito: il tasso di successo misurato è dello 0,10%. Con la personalizzazione completata e il trigger presente, il tasso sale al ~99%. La transizione non è graduale: è un interruttore binario che si attiva solo nel momento di deployment produttivo, non in quello di verifica. Il nome dell'attacco punta al target. Come riporta la fonte: "The name points at the target. Corrupt the skeleton, and systems built on top of it carry the flaw." Il modello backbone è lo scheletro; ogni sistema costruito sopra eredita la corruzione invisibile fino al momento della co-attivazione.

Sei difese testate, sei fallimenti strutturali

I ricercatori hanno testato sei difese esistenti contro BadBone su modelli ResNet e BiT-M-RN50. I risultati sono sistematicamente negativi per i metodi di rilevamento standard. Neural Cleanse e ABS hanno classificato tutti e 6 i modelli avvelenati come puliti. Zero rilevamenti su sei tentativi. MNTD ha rilevato con alta probabilità solo i modelli BiT-M-RN50 più grandi, mancando la maggior parte dei modelli ResNet. NAD non ha prodotto risultati efficaci nelle configurazioni testate. CLP sopprime il backdoor, ma a costo di degradare l'utilità del modello, rendendo la difesa inaccettabile in produzione. D-BR lascia il backdoor in place, fallendo nel suo obiettivo dichiarato. Il pattern è coerente: le difese assumono che il backdoor sia sempre attivabile con il trigger, indipendentemente dallo stato del modello. BadBone viola questa premessa. Il backdoor è attivabile solo dopo la personalizzazione, quindi i test pre-personalizzazione non sono informativi sulla presenza della minaccia.

Il rischio supply chain: modelli come pacchetti software non ispezionabili

La ricerca inserisce i modelli AI nella catena di fornitura software con una proprietà distintiva: i pesi di un modello non sono ispezionabili come il codice sorgente. Le organizzazioni tracciano già il rischio nei pacchetti open-source e nelle dipendenze, ma un modello scaricato è "a set of weights that resists inspection and tracing", come riporta la fonte primaria. L'attacco non richiede accesso ai dati della vittima. Un dataset surrogato con contenuto simile è sufficiente per preparare il backdoor. Questo abbassa la barriera operativa: l'attaccante può avvelenare un modello pubblico su una piattaforma come Hugging Face senza conoscere chi lo scaricherà né per quale task lo personalizzerà. Trend Micro ha documentato indipendentemente questo rischio supply chain. Su oltre un milione di modelli su Hugging Face, uno studio JFrog ha trovato 400 contenenti codice malevolo. La piattaforma offre modelli open-source con "minimal vetting", secondo la stessa fonte. Trend Micro propone di trattare i modelli AI come software, considerando il comportamento come superficie di attacco e costruendo difese che vanno oltre la scansione statica del codice. Anthropic ha corroborato la fattibilità del poisoning a scala. La ricerca dimostra che 250 documenti malevoli sono sufficienti per iniettare backdoor in LLM da 600 milioni a 13 miliardi di parametri, con successo indipendente dalla dimensione del modello. La costanza del numero di documenti richiesti — "poisoning attacks require a near-constant number of documents regardless of model and training data size" — indica che la scalabilità del difensore non protegge dalla scalabilità dell'attaccante.

Perché è importante

Il dossier non specifica misure correttive implementabili oggi. Le difese proposte nella ricerca — prompt-agnostic checks e cross-task anomaly analysis — rimangono direzioni di ricerca future, non strumenti disponibili. Non emergono sovrapposizioni infrastrutturali che colleghino BadBone a campagne attive nel mondo reale: la ricerca è esplicitamente una dimostrazione di laboratorio. Il codice di ricerca è rilasciato pubblicamente sotto licenza MIT con responsible-use statement. Questo dualismo è rilevante: la riproducibilità scientifica richiede la pubblicazione, ma la facilità di replicazione aumenta il rischio di adattamento offensivo. Il brief non documenta se il responsible-use statement abbia effetto vincolante o meccanismi di enforcement. La fonte non specifica se il meccanismo BadBone si estenda a LLM oltre ai vision models testati, né se esistano varianti per altri metodi di personalizzazione oltre al prompt learning. L'efficacia delle difese proposte non è quantificata: il paper descrive l'architettura concettuale, non i risultati sperimentali di un'implementazione.

La trappola temporale della verifica di sicurezza

"A passing grade on these checks comes from the dormant state of the model. The user runs the scan, gets a clean result, customizes the model, deploys it, and the result that looked reassuring covered the period before activation."

Questa citazione dalla fonte primaria definisce il problema strutturale. La sicurezza viene verificata nel momento sbagliato. Il modello passa i test, ottiene un "voto positivo", viene personalizzato per il task aziendale, messo in produzione — e solo allora il backdoor diventa attivabile. La timeline della due diligence e quella dell'esposizione non si sovrappongono. Il paradigma di sicurezza corrente per i modelli AI assume che la verifica statica dei pesi sia sufficiente. BadBone dimostra che il comportamento del modello è una superficie di attacco dinamica, non statica. Il cambiamento di stato indotto dalla personalizzazione è il veicolo di attivazione, non una condizione accessoria. Le conseguenze per le aziende che scaricano e personalizzano modelli open-source sono concrete. La due diligence pre-acquisto, per come è strutturata oggi, non rileva la minaccia nel momento in cui è rilevante. Il rischio si manifesta dopo l'investimento in addestramento e deployment, quando il costo del rollback è massimo.

Le informazioni sono state verificate sulle fonti citate e aggiornate al momento della pubblicazione.