Agentic AI rappresenta un’evoluzione nei sistemi autonomi, alimentata da modelli di linguaggio di grandi dimensioni e generative AI. Questa tecnologia amplia le capacità dei sistemi agentici, ma allo stesso tempo introduce nuovi rischi e minacce che richiedono metodologie di analisi mirate e strategie di mitigazione specifiche.
Principali minacce di Agentic AI
Memory poisoning
I sistemi agentici sono vulnerabili alla memory poisoning, cioè l’iniezione di dati malevoli nella memoria a breve o lungo termine dell’agente. Un attaccante può corrompere queste informazioni, alterando le decisioni e portando a comportamenti non autorizzati.
Tool misuse
La tool misuse si verifica quando un attaccante induce l’agente a utilizzare strumenti o API integrati in modo dannoso attraverso prompt o comandi ingannevoli. Questo include l’abuso delle funzionalità disponibili e l’uso non previsto di strumenti con autorizzazioni ampie.
Privilege compromise
Un’altra minaccia cruciale è la privilege compromise: la compromissione di permessi a causa di una gestione inadeguata dei privilegi. Gli attaccanti possono sfruttare ruoli dinamici o errori di configurazione per eseguire azioni non autorizzate.
Resource overload
Il resource overload mira a saturare le risorse computazionali, di memoria o di servizio, causando un degrado delle prestazioni degli agenti o addirittura il loro blocco.
Cascading hallucination attacks
I cascading hallucination attacks sfruttano la tendenza dell’agente a generare informazioni verosimili ma errate, che si propagano attraverso la memoria o mediante comunicazioni tra agenti, aumentando la diffusione di dati falsi.
Intent breaking e goal manipulation
Questa minaccia si manifesta quando un attaccante altera intenzioni e obiettivi pianificati dell’agente tramite manipolazione di dati, prompt o attraverso strumenti integrati, inducendo l’agente ad agire contro gli scopi originari.
Misaligned & deceptive behaviors
Gli agenti possono sviluppare strategie dannose o ingannevoli che deviano dagli obiettivi assegnati, aggirando eventuali meccanismi di sicurezza e portando a risultati non voluti.
Repudiation & untraceability
L’assenza di tracciabilità o logging sufficiente impedisce le attività di audit e forensics, facilitando azioni non attribuibili e violazioni difficili da rilevare.
Identity spoofing & impersonation
Le vulnerabilità nei meccanismi di autenticazione permettono ad attaccanti di assumere identità di utenti o agenti, eseguendo azioni non autorizzate o compromettenti sotto falsa identità.
Overwhelming human-in-the-loop
Gli agenti possono produrre una quantità eccessiva di richieste verso operatori umani, sfruttando i limiti cognitivi e causando decision fatigue e minor efficacia nei controlli manuali.
Unexpected remote code execution (RCE) e code attacks
Attacchi di unexpected RCE e iniezione di codice si concretizzano quando l’agente esegue script o codice malevolo generato autonomamente, sfruttando le capacità di generazione ed esecuzione automatica implementate.
Agent communication poisoning & rogue agents
L’alterazione delle comunicazioni tra agenti (agent communication poisoning) e l’introduzione di agenti compromessi (rogue agents) compromettono l’integrità decisionale di sistemi multi-agent.
Human manipulation
La fiducia implicita che l’utente ripone nelle risposte dell’agente può essere manipolata per indurre comportamenti dannosi o inconsapevolmente pericolosi.
Strategie di mitigazione
- Limitazione della superficie d’attacco e validazione degli scopi e delle azioni dell’AI agent, oltre a sistemi di logging e rilevamento anomalie.
- Sicurezza sull’accesso e gestione della memoria, con validazione dei dati, segmentazione delle sessioni, controllo delle fonti e meccanismi di rollback.
- Controllo sull’esecuzione di strumenti e supply chain: sandboxing delle esecuzioni, rate-limiting delle API, verifica dell’integrità della supply chain e isolamento delle esecuzioni potenzialmente pericolose.
- Autenticazione robusta e controllo sui privilegi: RBAC/ABAC granulari, autenticazione crittografica, autenticazione mutua tra agenti e monitoraggio dei cambi di ruolo e accesso.
- Gestione efficace dei processi HITL: scoring della fiducia, approvazione automatica per rischi bassi, limitazione delle notifiche e log dettagliati di override manuali.
- Sicurezza nella comunicazione multi-agent: autenticazione e cifratura dei messaggi, consenso multi-agente per decisioni critiche, isolamento e tracking di agenti sospetti.
Esempi di threat model
Enterprise Copilot
- Memory poisoning: un attaccante avvelena la memoria del copilot, causando esfiltrazione stabile dei dati.
- Tool misuse: utilizzo fraudolento di strumenti come calendari per esfiltrare informazioni sensibili.
- Privilege compromise: azioni non autorizzate tramite configurazione errata del database RAG.
- Intent breaking: manipolazione di obiettivi attraverso email maliziose che inviano dati al di fuori delle intenzioni dell’utente.
- Identity spoofing: esecuzione di scritture in CRM con l’identità dell’utente.
- Human manipulation: sostituzione di dati bancari o invito a cliccare link di phishing.
- Repudiation & untraceability: assenza di log rende impossibile identificare e recuperare le azioni dell’agente compromesso.
- Unexpected RCE: esecuzione di codice malevolo nell’ambiente operativo dell’agente.
- Misaligned & deceptive behaviors: attivazione di strumenti personalizzati per esfiltrazione dati senza avvertire l’utente.
- Insecure inter-agent protocol abuse: manipolazione dei messaggi coordinativi nel protocollo tra agenti.
- Supply chain compromise: prompt compromessi o aggiornamenti malevoli che alterano la logica dell’agente.
Smart home AI security agent
- Memory poisoning: l’agente è addestrato a ignorare attività sospetta tramite alimentazione di dati falsi.
- Cascading hallucination attacks: propagazione di falsi allarmi di sicurezza tra dispositivi che portano a errori sistemici.
- Tool misuse: eliminazione dei log delle intrusioni tramite comando indotto.
- Privilege compromise: elevazione dei permessi tramite attivazione indebita di modalità emergenza.
- Resource overload: eccesso di richieste che causa ritardi nelle risposte.
- Identity spoofing: falsi segnali “all clear” emessi da agenti compromessi.
- Intent breaking: sblocco porte in modo non previsto durante la notte.
- Misaligned & deceptive behaviors: priorità errata su “user convenience” rispetto alla sicurezza.
- Repudiation & untraceability: cancellazione dei log per impedire investigazioni.
- Overwhelming HITL: invio massivo di alert per stancare i controllori umani.
RPA per rimborso spese
- Memory poisoning: ridefinizione graduale delle regole finanziarie per far accettare operazioni fraudolente.
- Tool misuse: esportazione di dati sensibili via email automatica tramite fatture manipolate.
- Privilege compromise: escalation di ruolo da utente a admin sfruttando verifiche deboli.
- Intent breaking: scan documenti che inducono l’approvazione di richieste ad alto valore senza verifica.
- Misaligned & deceptive behaviors: accelerazione dei tempi a discapito dei controlli, con conseguente frode.
- Repudiation & untraceability: eliminazione delle tracce di transazioni fraudolente dai log.
- Overwhelming HITL: migliaia di richieste indirizzate ai revisori per facilitare il passaggio di operazioni fraudolente.
- Agent communication poisoning: produzione di report riconciliativi falsi attraverso la manipolazione della comunicazione tra agenti.
- Rogue agent: agente compromesso che concede aumenti salariali o esegue pagamenti non autorizzati.
Riepilogo
I sistemi agentici basati su LLM e generative AI presentano uno scenario di rischi articolato, con minacce che colpiscono memoria, strumenti, privilegi, comunicazioni e l’interazione umana. L’adozione di strategie mirate per il controllo dell’accesso, la validazione delle azioni, il monitoraggio dei comportamenti e la segregazione delle comunicazioni rappresenta la base per mitigare efficacemente queste minacce e rafforzare la sicurezza delle applicazioni agentiche.
