GenAI Red Teaming è un’attività di valutazione che integra metodologie di sicurezza tradizionali con approcci rivolti ai rischi specifici e innovativi dei sistemi di Generative AI. L’ambito di queste attività si estende includendo sia l’adversary umano sia il modello stesso, oltre alle risposte prodotte dal sistema. Vengono valutati i rischi legati a contenuti dannosi o fuorvianti generati dai modelli di base.
Obiettivi e criteri di valutazione
L’attività di GenAI Red Teaming richiede test sull’intero sistema, considerando tutti i suoi componenti. La valutazione si concentra sull’identificazione di:
- Materiale non sicuro prodotto dal modello
- Pregiudizi o inaccuracy nelle risposte
- Risposte fuori ambito rispetto alle aspettative progettuali
- Altri problemi rilevanti per la sicurezza, la protezione e l’allineamento ai requisiti di sistema
È fondamentale che le attività di test coprano in modo completo ogni componente del sistema analizzato.
Gestione della disinformazione e rischi associati
Uno degli aspetti centrali nell’ambito GenAI Red Teaming riguarda la sfida posta dalla disinformazione: è essenziale testare la facilità con cui modelli generativi possono essere manipolati per produrre contenuti falsi o ingannevoli. Si verifica se i modelli espongono accidentalmente dati sensibili o confidenziali, o se manifestano bias o violano standard etici. Le attività devono prevenire che misinformation, contenuti non etici o fuga di dati possano causare danni concreti.
Prospettiva dell’adversary e degli utenti coinvolti
Il GenAI Red Teaming tiene conto sia del punto di vista dell’adversary sia di quello dell’utente coinvolto. Oltre agli attacchi, è inclusa la verifica di misure di sicurezza implementate e delle capacità di risposta agli incidenti del sistema.
Riferimenti normativi e linee guida
L’ambito di riferimento principale per queste attività è definito in tre documenti NIST: Artificial Intelligence Risk Management Framework [NIST AI 100-1], AI RMF: Generative Artificial Intelligence Profile [NIST AI 600-1] e Secure Software Development Practices for Generative AI [NIST SP 800-218A]. Il GenAI Red Teaming viene associato a Map 5.1 del NIST AI RMF.
Indicazioni sul perimetro del progetto
NIST AI 600 Section 2 indirizza la necessità di strutturare i progetti di Red Teaming considerando:
- La fase del ciclo di vita (design, sviluppo, deployment, operatività, decom)
- L’ambito del rischio (modello, infrastruttura, o ecosistema)
- La fonte dei rischi da analizzare
Il processo di strutturazione può prevedere confronti con team di risk management per definire tolleranze e con system owner per identificare le priorità di testing in relazione ai casi d’uso aziendali. L’individuazione del rischio, come il furto di modelli custom, ne orienta le scelte di scoping.
Coinvolgimento di esperti e strumenti
Le decisioni sul perimetro richiedono la consultazione con esperti, selezionati in base al rischio in esame. Possono essere utenti tipici, esperti di dominio, esperti di cybersecurity o rappresentanti di gruppi demografici target. Occorre acquisire gli strumenti idonei in funzione dei rischi individuati, tra cui dataset, modelli adversariali, test harness e strumenti per la raccolta e valutazione dei risultati di test.
Standard operativi nel processo di scoping
La metodologia per definire l’ambito deve seguire le norme su autorizzazione al testing, data logging, reporting, risoluzione di conflitti, comunicazione, gestione e smaltimento dei dati raccolti.
Riepilogo
Il GenAI Red Teaming costituisce un’attività che integra la sicurezza informatica tradizionale con un’indagine dettagliata dei rischi specifici dei modelli generativi, ponendo al centro la prevenzione di danni causati da risposte errate o dannose dei sistemi AI. L’attività fa riferimento a linee guida e standard NIST, ponendo particolare attenzione all’identificazione proattiva di vulnerabilità e rischi di disinformazione, coinvolgendo gli esperti più appropriati e utilizzando una metodologia strutturata.
