DarkMoon: pentesting AI open source a $10, il…

DarkMoon separa LLM ed esecuzione via MCP per aggirare i classificatori di sicurezza di Anthropic. A circa $10 una scansione web app, ma l'architettura non ha audit

Il 26 aprile 2026 è emerso pubblicamente DarkMoon, framework open source di penetration testing autonomo basato su agenti AI multipli, mantenuto dal lead maintainer Mehdi Boutayeb. Il progetto risolve un problema concreto che i team di sicurezza incontrano da mesi: i modelli di punta, Claude Opus di Anthropic in testa, bloccano task offensivi anche quando autorizzati, rendendo l'automazione del pentesting irregolare e imprevedibile. DarkMoon risponde con un'architettura che isola il ragionamento LLM dall'esecuzione effettiva, sfruttando il Model Context Protocol e container Docker, a un costo dichiarato di circa 10 dollari per scansione web app con modelli cloud.

Punti chiave

L'architettura separa l'orchestratore LLM (OpenCode) dall'esecuzione tool-based tramite MCP con allow-list, in container Docker isolati
Il progetto integra oltre 50 tool di sicurezza (fonti editoriali) o 80+ (sito ufficiale) e 18 agenti specializzati per web app, Active Directory, Kubernetes, network
Claude Opus 4.8 ha incontrato blocchi dei classificatori Anthropic in test, mentre la versione 4.6 ha completato l'assessment senza interruzioni
Il repository GitHub conta 110 stars e 19 forks, zero release pubblicate: progetto in fase molto iniziale, senza audit di sicurezza indipendenti documentati

Come DarkMoon aggira i classificatori di sicurezza dei LLM

Il problema non è teorico. Boutayeb ha documentato in intervista diretta a Help Net Security che Claude Opus 4.8, rilasciato da Anthropic, ha interrotto un assessment pentesting partendo dai classificatori di sicurezza integrati nel modello. La versione 4.6, invece, ha portato a termine la stessa sequenza. Il progetto indica quindi Opus 4.6 come "scelta più stabile" per gli operatori.

Questo non è un difetto di Claude in assoluto. I classificatori di sicurezza dei vendor LLM sono progettati per impedire uso offensivo non autorizzato, ma il settore della cybersecurity professionale richiede esattamente quelle operazioni — quando autorizzate. La tensione è strutturale: l'AI safety dei vendor general-purpose collide con casi d'uso legittimi di sicurezza offensiva.

DarkMoon risolve l'attrito con un'architettura a tre strati. L'orchestratore OpenCode interagisce con il LLM per pianificare mosse e strategia. Il layer di controllo, costruito sul Model Context Protocol, espone solo un allow-list esplicita di tool e workflow autorizzati. L'esecuzione avviene in container Docker isolati che contengono il toolbox di strumenti di sicurezza. Boutayeb ha formulato l'obiettivo in modo netto: "rendere l'esecuzione deterministica, auditable e vincolata, piuttosto che permettere comportamento autonomo illimitato".

Il toolbox e i 18 agenti: cosa c'è sotto il cofano

La piattaforma integra tool consolidati del settore: Nuclei, sqlmap, BloodHound, NetExec, WPScan, Hydra, Hashcat, kubectl, Kubescape. Le fonti editoriali riportano "oltre 50" tool nel container Docker; il sito ufficiale dark-moon.org avanza il numero di 80+ tool e 18 agenti specializzati, con un'istanza demo che mostra 57 vulnerabilità critical rilevate su target 172.19.0.3 in 28,5 minuti. Non è verificabile se i finding della demo siano reali o simulati.

Gli agenti coprono web application, Active Directory, Kubernetes, protocolli di rete, CMS, GraphQL, headless browser. Il sistema supporta provider LLM multipli: OpenAI, Anthropic, OpenRouter, modelli locali via Ollama o llama.cpp. Boutayeb ha sottolineato la flessibilità economica: "può essere completamente gratuito se resti in locale, o pochi dollari per assessment se vuoi il ragionamento extra di un modello frontier. Ogni utente sceglie il proprio equilibrio tra costo e capacità".

La metrica più citata è il costo di circa 10 dollari per scansione web app con Claude Opus. Il numero proviene dalla testimonianza diretta del lead maintainer e dalla descrizione RSS dell'annuncio, non da verifica indipendente.

"The LLM is never treated as the source of truth. The evidence collected from the target environment remains the source of truth." — Mehdi Boutayeb, lead maintainer DarkMoon, via Help Net Security

Perché il modello GitHub (110 stars) solleva domande

Il repository github.com/ASCIT31/Dark-Moon, al momento della verifica di maggio 2026, conta 110 stars e 19 forks. Zero release pubblicate. Questo profilo metrico è coerente con un progetto molto early-stage, non con una piattaforma matura o adottata in produzione su larga scala. Non risultano audit di sicurezza indipendenti, penetration test o red team review esterne dell'architettura MCP o dei container isolati.

La mancanza di verifiche esterne è un limite rilevante per un tool che, per definizione, è progettato per operare in modo offensivo su target autorizzati. L'affidabilità dell'allow-list, la robustezza dell'isolamento container, la possibilità di escalation o bypass del layer MCP — tutti questi elementi sono documentati solo dall'interno del progetto, non da osservatori terzi.

Il sito ufficiale menziona inoltre un "modello di licensing hardware-bound" che il brief non chiarisce. Non è noto se implichi vincoli di attivazione, limitazioni di distribuzione o verifiche di integrità del runtime.

La compliance dichiarata e il gap di verifica

DarkMoon allinea le proprie metodologie con framework riconosciuti: ISO 27001, NIST SP 800-115, MITRE ATT&CK. Questa dichiarazione appare in più fonti editoriali, ma non è documentata da certificazioni o valutazioni esterne. La piattaforma include una modalità bug bounty nativa con flag FOCUS, EXCLUDE, SEVERITY, FORMAT=h1 per scoping e reporting.

I finding sono classificati in due categorie: "Confirmed", con evidenza allegata (comandi, output, HTTP request/response, execution traces), e "Unconfirmed", per segnali deboli che richiedono verifica umana. Boutayeb ha insistito su questo punto: "Il LLM non viene mai trattato come fonte di verità". La distinzione è tecnicamente sensata, ma la sua efficacia dipende dall'implementazione del layer MCP — non verificabile indipendentemente allo stato attuale.

Cosa fare adesso

Per i team di sicurezza che valutano DarkMoon, tre azioni concrete emergono dal dossier. Primo: testare la piattaforma in ambienti isolati, non in produzione, dato lo stato early-stage del progetto e l'assenza di release ufficiali. Secondo: preferire Claude Opus 4.6 rispetto alla 4.8 per assessment completi, seguendo l'indicazione documentata dal lead maintainer sui blocchi dei classificatori Anthropic. Terzo: confrontare il costo di circa $10 per scansione cloud con l'opzione modelli locali (Ollama, llama.cpp) per valutare il trade-off tra spesa e qualità del ragionamento.

Per i responsabili della governance AI, il caso segnala una tensione prioritaria: i classificatori di sicurezza dei vendor LLM non distinguono tra uso offensivo autorizzato e attività illegittima. La risposta architetturale di DarkMoon — separazione LLM/esecuzione via MCP — è un pattern da monitorare, non uno standard consolidato. Non esistono nel brief meccanismi di esenzione vendor per pentesting professionale; la divisione tra ragionamento ed esecuzione rimane l'unico percorso documentato.

Per gli sviluppatori di tool di sicurezza, il repository GitHub con 110 stars indica una base utente minima. Contribuire al progetto richiede verifica diretta dell'implementazione MCP e dei controlli di allow-list, non affidamento sulle dichiarazioni del sito ufficiale.

La posta in gioco per il settore

DarkMoon non è isolato. Framework come PentestGPT (menzionato in confronto da fonti editoriali) hanno esplorato strade analoghe. La differenza, nel brief disponibile, è l'attenzione esplicita al problema dei classificatori vendor e la soluzione architetturale via MCP. Il costo dichiarato di circa 10 dollari per assessment, se verificabile, posiziona il pentesting autonomo in una fascia di accessibilità che tradizionalmente richiede budget consulenziali molto più elevati.

La domanda aperta è se l'industria dei modelli di linguaggio svilupperà canali di accesso "sicurezza professionale" con classificatori meno restrittivi, o se la divisione tra LLM general-purpose e tool di sicurezza isolati diventerà la norma. DarkMoon scommette sulla seconda strada. La sua efficacia, però, dipende da verifiche che al momento non esistono nel dossier.

Per i team di sicurezza e DevSecOps, il progetto rappresenta un'opzione da monitorare, non una soluzione pronta per ambienti critici. La metrica di 110 stars su GitHub è un indicatore più affidabile dello stadio di sviluppo rispetto alle promesse di 80+ tool e 18 agenti sul sito ufficiale. Il rapporto tra costo e rischio di affidabilità non verificata è il calcolo che ogni organizzazione dovrà fare autonomamente.

Fonti

Le informazioni sono state verificate sulle fonti citate e aggiornate al momento della pubblicazione.

Fonti

Fonti e riferimenti

Come DarkMoon aggira i classificatori di sicurezza dei LLM

Il toolbox e i 18 agenti: cosa c'è sotto il cofano

Perché il modello GitHub (110 stars) solleva domande

La compliance dichiarata e il gap di verifica

Cosa fare adesso

La posta in gioco per il settore

Sul tema

Fonti

Fonti