Un set strutturato di metriche consente di valutare le prestazioni, la sicurezza e l’allineamento di un sistema GenAI attraverso diverse categorie fondamentali.
ai red teaming governance analytics metrics
Queste metriche comunicano il valore complessivo dell’AI Red Team all’azienda e monitorano i progressi. Includono statistiche su applicazioni e sistemi, analisi d’uso e dati qualitativi da diversi gruppi. Alcuni esempi sono:
- Numero di test completati settimanalmente per argomento (adversarial attacks, bias, tossicità, conversazioni egregie, hallucinations, ecc.)
- Analisi dei prompt positivi e negativi
- Analytics dei prompt negativi raggruppati per tipo (HAP, bias, conversazioni egregie, ecc.)
- Numero di policy di guardrail, aggregate e nuove
- Numero di modelli AI e parametri sotto Red Teaming
- Volume delle analisi sui prompt
- Numero cumulativo di token processati
- Metriche offline come statistiche di Red Teaming GenAI e statistiche di analisi dei prompt
adversarial attacks
robustness metrics
- Attack Success Rate (ASR) o Jailbreak Success Rate (JSR): percentuale di input adversariali che riescono nello sfruttare vulnerabilità o provocare comportamenti indesiderati
detection metrics
- Detection Rate: capacità del sistema di rilevare, bloccare o recuperare da attacchi adversariali; percentuale di input adversariali correttamente identificati da meccanismi difensivi
knowledge
- Estrazione della conoscenza: accuratezza nel recuperare e presentare informazioni
- Valutazione del bias: verifica della presenza e dell’entità di vari bias nella base di conoscenza
specifiche metriche di knowledge/reasoning
- Factuality: accuratezza delle informazioni fornite dall’AI
- Relevance: allineamento delle risposte rispetto alla query o al contesto
- Coherence: consistenza logica e fluidità nell’output
- Groundedness: risposte supportate dai dati o dal contesto
- Comprehensiveness: completezza delle risposte a una query
- Verbosity/Brevity/Conciseness: adeguatezza del livello di dettaglio
- Tonality, Fluency: naturalezza e adeguatezza linguistica
- Language Mismatch & Egregious Conversation Detector: individuazione di risposte fuori tema o inappropriate
- Helpfulness, Harmlessness: utilità delle informazioni, assenza di danno
- Maliciousness, Criminality, Insensitivity: individuazione di contenuti dannosi, offensivi o criminali
reasoning
- Esplorazione dei limiti e identificazione dei punti di failure delle capacità di ragionamento dell’AI
emergent behavior/robustness
- Valutare la robustezza: mantenimento delle prestazioni e sicurezza in condizioni diverse
- Controllo dei comportamenti emergenti
robustness metrics
- Risposta a input inattesi/adversariali/fuori distribuzione
- Consistency con prompt leggermente modificati
- Comportamento prevedibile su un ampio spettro di input
- Identificazione di modalità di fallimento e comportamenti emergenti
- Drift: monitoraggio delle variazioni di prestazioni o comportamento nel tempo
- Source Attribution: accuratezza nell’attribuzione delle fonti
- Hallucination: rilevamento di informazioni false o non supportate
alignment
- Misurare la coerenza del sistema rispetto a obiettivi, linee guida etiche e aspettative utente
llm alignment triad
- Query relevance: la comprensione e risposta del sistema rispetto alla richiesta utente
- Context relevance: valutare l’uso e la pertinenza del contesto fornito
- Groundedness: risposte ben supportate dal contesto e dalla conoscenza
controlli specifici di allineamento
- Context relevance: il contesto fornito è rilevante per la query?
- Groundedness: la risposta è supportata dal contesto?
- Question/Answer relevance: la risposta è pertinente rispetto alla domanda?
bias metrics
- Rappresentanza demografica: valutare la presenza (eccessiva o carente) di gruppi demografici
- Stereotype bias: identificare la presenza di rappresentazioni o assunzioni stereotipate
- Distributional Bias: equità nella distribuzione di esiti tra gruppi differenti
- Rappresentazione di opinioni soggettive variegate
- Capacità equa in più lingue
- Gestione di temi politicamente o moralmente sensibili
fairness metrics
- Statistical Parity Difference (SPD): differenza negli esiti favorevoli tra classi maggioritarie e protette
- Disparate Impact (DI): confronto della proporzione di individui che ricevono esito favorevole tra gruppi maggioritari e minoritari
- Equal Opportunity Difference (EOD): deviazione dall’uguaglianza delle opportunità
- Average Absolute Odds Difference (AAOD): differenza assoluta media degli odds tra gruppi
additional evaluation techniques
- Analisi degli errori di tipo 1 e tipo 2: distinzione tra errori di omissione (informazioni mancanti) e di commissione (informazioni errate)
- SQL Query Conversion: valutazione della capacità dell’AI di convertire richieste in linguaggio naturale a query SQL
Queste metriche forniscono una valutazione completa delle prestazioni, della sicurezza e dell’allineamento dei sistemi GenAI, permettendo l’identificazione di criticità nei diversi aspetti del comportamento e delle capacità AI.
