GenAI Red Teaming affronta i rischi legati alla sicurezza dell’intelligenza artificiale generativa attraverso un approccio olistico che considera aspetti di sicurezza, sicurezza degli utenti e fiducia degli utenti stessi. Questo metodo esamina le debolezze intrinseche dei modelli, valuta l’efficacia delle implementazioni, controlla le vulnerabilità dei sistemi e analizza le interazioni tra output AI, utenti umani e altri sistemi interconnessi.
Principali livelli di analisi del GenAI Red Teaming
- Model evaluation: Analisi delle debolezze del modello, come bias o problemi di robustezza.
- Implementation testing: Test delle barriere di sicurezza e delle prompt in ambiente produttivo.
- System evaluation: Esame delle vulnerabilità a livello di sistema, incluse la sicurezza della supply chain e dei dati nelle pipeline di sviluppo e distribuzione.
- Runtime analysis: Analisi delle interazioni tra gli output dell’AI, gli utenti e i sistemi collegati, individuando rischi di over-reliance o possibili vettori di social engineering.
Rischi principali affrontati dal GenAI Red Teaming
Sicurezza, privacy e robustezza
Nuovi rischi come prompt injection, data leakage, violazioni della privacy e data poisoning derivano da input malevoli e dati di addestramento compromessi. Questi rischi minacciano l’integrità e la sicurezza operativa del sistema AI.
Tossicità, contenuti dannosi e rischi di interazione
L’AI generativa può produrre contenuti tossici o dannosi, tra cui odio, abuso, volgarità, conversazioni sconvenienti e risposte di parte. Questi problemi compromettono la sicurezza dell’utente e minano la fiducia nel sistema.
Bias, integrità del contenuto e disinformazione
Esistono rischi specifici legati alla factualità, rilevanza e groundedness (RAG Triad). Fenomeni quali hallucinations (affermazioni errate) o comportamenti emergenti possono essere detrimentali o utili a seconda del contesto. Mantenere un equilibrio tra precisione e creatività è essenziale per la fiducia e il valore del sistema.
Rischi nei sistemi multi-agent
Con l’introduzione di agenti autonomi che concatenano modelli, interagiscono con strumenti e prendono decisioni sequenziali accedendo a varie fonti dati e API, emergono nuove tipologie di attacco:
- Catene di attacco multi-step tra diversi servizi AI.
- Catene di attacco multi-turno all’interno dello stesso modello AI.
- Manipolazione dei processi decisionali degli agenti.
- Sfruttamento dei punti di integrazione degli strumenti.
- Avvelenamento dati tra catene di modelli.
- Bypass di permessi tramite interazioni fra agenti.
Se i modelli GenAI vengono manipolati o avvelenati, possono diffondere false informazioni su larga scala, con impatti significativi su media, piattaforme social o sistemi decisionali automatizzati. La manipolazione può minare la fiducia, fuorviare gli utenti e alimentare contenuti propagandistici o estremisti.
Ampliamento dello scope dei rischi
L’utilizzo di agenti autonomi, modelli d’azione avanzati e LLM come engine di ragionamento aumenta la superficie d’attacco. I malintenzionati possono influenzare il motore di ragionamento per selezionare azioni specifiche o costringere i modelli a svolgere compiti non previsti tramite input mirati.
Esempi di vulnerabilità
Gli exploit di Microsoft Copilot evidenziati a Blackhat USA 2024 non hanno colpito vulnerabilità interne ai modelli, ma hanno sfruttato permessi di ricerca deboli in ecosistemi GenAI complessi, esponendo così dati sensibili.
Sistemi come Retrieval-Augmented Generation “copilots” semplificano richieste di dati in linguaggio naturale, facilitando l’esfiltrazione di informazioni tramite agenti AI collegati che usano ricerche mirate e dati vettoriali.
Conclusioni
GenAI Red Teaming identifica e affronta una vasta gamma di rischi legati a sicurezza, privacy, robustezza, tossicità, bias e all’integrità dei contenuti. L’ampliamento dello scope dovuto a sistemi multi-agent e modelli autonomi richiede una continua attenzione a nuove superfici di attacco e vettori di compromissione, per garantire sicurezza dell’operatore, sicurezza dell’utente e mantenimento della fiducia nell’intelligenza artificiale generativa.
