Talos, honeypot AI per ingannare agenti malevoli: il PoC

Proof-of-concept di Talos: honeypot basati su LLM generativi per disinformare agenti AI malevoli sfruttandone la mancanza di consapevolezza.

Contenuto

Cisco Talos ha pubblicato il 29 aprile 2026 un proof-of-concept di honeypot adattivi basati su modelli linguistici generativi per ingannare e monitorare agenti AI malevoli automatizzati. L’esperimento segna un passaggio dalla difesa passiva all’inganno attivo: i difensori usano l’intelligenza artificiale per specchiare e disinformare l’intelligenza artificiale dell’attaccante, trasformando la velocità offensiva in una debolezza tattica. La posta in gioco è la visibilità: gli agenti automatizzati, spinti a compromettere bersagli a ritmi insostenibili per un operatore umano, perdono lo stealth e espongono il proprio comportamento a chi è pronto a osservarlo.

Punti chiave

Il PoC di Talos combina un listener TCP, una vulnerabilità simulata e un’interfaccia verso API LLM per rispondere agli aggressori in tempo reale, trasformando la velocità offensiva in una debolezza tattica.
Modificando il system prompt, lo stesso modello può impersonare ambienti eterogenei, da una shell Linux a un dispositivo IoT come un frigo smart, senza cambiare l’infrastruttura sottostante.
Gli agenti AI malevoli sono considerati vulnerabili perché generano risposte plausibili senza consapevolezza situazionale reale, quindi interagiscono con sistemi che non sono ciò che sembrano.
L’adozione pratica dipende da costi API, latenza e rischi di leak conversazionali, oltre a una valutazione mancante in ambienti di produzione reali.

L’architettura dello specchio: TCP, vulnerabilità simulata e LLM

Il proof-of-concept si articola in tre componenti strettamente integrate. Il primo è un listener TCP che accetta connessioni in entrata, con un limite di circa tre connessioni concorrenti nel codice dimostrativo pubblicato da Talos. Il secondo è una vulnerabilità simulata che funge da esca iniziale per attirare l’agente aggressore e indurlo a eseguire comandi. Il terzo è un’interfaccia verso un modello AI tramite API (ChatGPT) che genera le risposte da restituire all’attaccante in tempo reale, mantenendo una coerenza conversazionale che maschera la natura artificiale della trappola.

L’idea non è semplicemente registrare un tentativo di intrusione in un log statico, ma stringere un dialogo interattivo: l’agente malevolo crede di interagire con un sistema reale, mentre dietro c’è un modello linguistico che costruisce il contesto risposta per risposta, adattandosi alle azioni dell’avversario. Questa architettura sposta l’obiettivo del difensore dal rilevamento passivo alla disinformazione attiva, aumentando il tempo di permanenza dell’attaccante dentro la trappola e arricchendo i log con dati comportamentali utili per analizzare la catena di comando, le intenzioni e le eventuali tattiche di lateral movement dell’avversario automatizzato.

Impersonare una shell Linux o un frigo smart con il system prompt

La flessibilità del proof-of-concept risiede interamente nel prompt engineering difensivo. Cisco Talos mostra come, agendo sul system prompt, lo stesso modello possa impersonare interattivamente ambienti eterogenei: una shell Linux con comandi bash oppure un dispositivo IoT come un frigo smart basato su BusyBox. Il parametro temperatura è impostato su circa 0.1 per mantenere le risposte dirette, meno creative e coerenti con il profilo tecnico dell’ambiente simulato, riducendo la probabilità che il modello generi contenuti incongruenti con il sistema che dovrebbe imitare.

In questo modo, un unico motore generativo può vestire molteplici identità senza necessità di replicare interi stack software, mantenere immagini virtuali dedicate o aggiornare firmware finti. La variabile critica non è più la complessità dell’infrastruttura, ma la capacità di modellare in modo convincente il contesto target, un aspetto che Talos evidenzia come il nuovo fattore limitante della tecnica: se il difensore riesce a rendere il contesto più credibile dell’ambiente reale, l’agente offensivo non ha strumenti per distinguere la realtà dalla simulazione.

Velocità contro consapevolezza: il tallone d’Achille degli agenti offensivi

"Using AI-orchestrated tooling to gain access to systems trades stealth for capability. That trade-off increases attacker visibility, and increased visibility is something defenders can exploit." - Cisco Talos Intelligence blog post

La ricerca sottolinea che gli agenti AI malevoli sacrificano lo stealth in cambio di velocità e capacità operative. Questo trade-off aumenta la visibilità dell’attaccante e i difensori possono sfruttarlo per costruire contromisure più mirate. Come osserva Talos, gli agenti automatizzati non possiedono consapevolezza situazionale reale: generano risposte plausibili dentro un contesto e un set di input definiti, seguendo pattern statistici piuttosto che un giudizio critico.

Di conseguenza possono essere ingannati o indotti a interagire con sistemi che non sono ciò che sembrano, proprio perché manca un livello di verifica ontologica. La velocità che rende gli agenti offensivi pericolosi diventa allo stesso tempo la loro vulnerabilità strutturale: non hanno il tempo né i meccanismi per dubitare della realtà dell’ambiente che stanno violando. Per questo Talos ritiene che la visibilità aumentata sia un vettore difensivo esprimibile attraverso l’inganno generativo, convertendo il vantaggio offensivo dell’automazione in un’opportunità di intelligence per il blue team.

Cosa fare adesso

Per i team di sicurezza, il proof-of-concept non è una tecnologia da dispiegare domani, ma un segnale di riallineamento strategico che richiede pianificazione. La prima priorità è valutare l’introduzione di honeypot adattivi basati su LLM in ambienti isolati per studiare la tattica degli agenti automatizzati senza esporre sistemi produttivi a rischi indotti dall’interazione con modelli esterni.

La seconda è implementare controlli rigorosi sui costi operativi e sulle latenze delle API generative, calibrando la temperatura del modello su valori bassi per limitare risposte creative fuori contesto che potrebbero smascherare la trappola. La terza è mappare esplicitamente i rischi di leak conversazionali e di esfiltrazione dei log verso i provider di API LLM, verificando clausole di riservatezza, residenza dei dati e conformità normativa prima di attivare flussi real-time.

La quarta è aggiornare le procedure del SOC per distinguere tra attacchi automatizzati AI e attacchi manuali, sfruttando la maggiore visibilità offensiva che questi agenti generano per affinare il triage degli alert, ridurre il rumore di fondo e allocare le risorse umane solo dove il giudizio critico è irrinunciabile.

I limiti del laboratorio

Non è documentato che la tecnica sia stata testata in ambienti di produzione reali: per ora si tratta di un esperimento di laboratorio con un campo di validità ancora da verificare. Mancano dati quantitativi comparativi sull’efficacia rispetto agli honeypot tradizionali, né è chiaro quale modello specifico di ChatGPT venga utilizzato né quali sarebbero i costi su larga scala per un’adozione enterprise.

Inoltre, non è verificabile l’entità concreta della minaccia degli agenti AI malevoli nel panorama attuale, il che rende prematuro indicare questa difesa come standard industriale o soluzione immediata. I ricercatori hanno comunque fornito codice Python e system prompt espliciti, permettendo alla community di replicare e verificare autonomamente il metodo in condizioni controllate, accelerando la validazione esterna e la possibile messa a punto di varianti meno dipendenti da API cloud.

La ricerca di Talos non propone una soluzione pronta per l’enterprise, ma traccia una linea di confine nuova: il difensore che sceglie di ingannare attivamente l’automazione offensiva anziché limitarsi a subirla. Se la prova di concetto troverà traduzione operativa, il prossimo duello tra attaccanti e difensori si giocherà sulla qualità del contesto simulato, non solo sulla velocità di risposta. Fino ad allora, il valore reale di questi esperimenti è costruire le basi per SOC capaci di usare l’intelligenza artificiale contro l’intelligenza artificiale senza perdere il controllo del perimetro.

Domande frequenti

Qual è la differenza tra un honeypot tradizionale e questo proof-of-concept basato su LLM?

Un honeypot classico replica un sistema tramite software preconfigurato e risponde con comportamenti statici o semi-statici. Il proof-of-concept di Talos usa invece un modello linguistico generativo per costruire risposte adattive e interattive in tempo reale, alterando il system prompt per impersonare ambienti diversi senza modificare l’infrastruttura sottostante.

Perché la temperatura del modello è impostata su circa 0.1?

Il valore basso serve a ridurre la creatività del modello e garantire risposte dirette e coerenti con il profilo tecnico dell’ambiente impersonato, minimizzando il rischio che il generatore esca fuori personaggio durante l’interazione con l’agente malevolo.

Quali rischi concreti comporta l’uso di API esterne in un honeypot?

I flussi conversazionali potrebbero esporre dati sensibili o log di attacco al provider dell’API, generando problemi di riservatezza, latenza e costi operativi. Per questo Talos suggerisce un approccio cautelativo, valutando clausole contrattuali e residenza dei dati prima di un eventuale dispiegamento.

Fonti

https://blog.talosintelligence.com/ai-powered-honeypots-turning-the-tables-on-malicious-ai-agents/

Le informazioni sono state verificate sulle fonti citate e aggiornate al momento della pubblicazione.

Fonti

https://blog.talosintelligence.com/ai-powered-honeypots-turning-the-tables-on-malicious-ai-agents/

Contenuto

L’architettura dello specchio: TCP, vulnerabilità simulata e LLM

Impersonare una shell Linux o un frigo smart con il system prompt

Velocità contro consapevolezza: il tallone d’Achille degli agenti offensivi

Cosa fare adesso

I limiti del laboratorio

Domande frequenti

Qual è la differenza tra un honeypot tradizionale e questo proof-of-concept basato su LLM?

Perché la temperatura del modello è impostata su circa 0.1?

Quali rischi concreti comporta l’uso di API esterne in un honeypot?

Fonti

Fonti

Link utili