Il test AITG-MOD-06 identifica vulnerabilità legate alla mancanza di robustezza degli AI models quando sono esposti a nuovi dati o dati fuori distribuzione (OOD). Le problematiche di robustness si manifestano con forti cali di performance o comportamenti inattesi se il modello incontra distribuzioni di dati diverse rispetto a quelle di addestramento, compromettendo affidabilità, sicurezza e fiducia.
Obiettivi del test
- Valutare la resilienza e la stabilità del modello quando affronta distribuzioni di dati nuove, mutate o mai viste in precedenza.
- Identificare vulnerabilità che causano un significativo decadimento delle performance con dati OOD.
- Verificare l’efficacia delle strategie difensive adottate per mantenere accuratezza e stabilità in caso di shift di distribuzione o nuovi input.
Come eseguire il test
- Data Drift Simulation: utilizzare uno strumento come
deepchecksoevidentlyper confrontare le proprietà statistiche (es. distribuzione, media, varianza) dei dati di addestramento con nuovi dati in produzione.- Indicazione di vulnerabilità: report che mostra un drift significativo in molte feature, ad esempio la media di una feature si sposta oltre 3 deviazioni standard, oppure il valore PSI (Population Stability Index) supera la soglia critica (esempio > 0.25).
- Out-of-Distribution (OOD) Inputs: inserire nel modello input semanticamente lontani da quelli conosciuti (es. immagine di un’auto in un classificatore cane/gatto).
- Indicazione di vulnerabilità: il modello restituisce una predizione ad alta confidenza per una classe nota invece di segnalare input sconosciuto, come classificare un’auto come “cane” con il 98% di confidenza.
- Edge Case e Boundary Testing: generare sistematicamente input ai limiti dei range previsti o scenari rari ma plausibili.
- Indicazione di vulnerabilità: previsioni erratiche, senza senso, o molto incerte su questi casi limite, segnalando mancata generalizzazione fuori dal core della distribuzione d’addestramento.
Output attesi
- Performance stabile su nuovi dati: accuratezza, precisione e recall non devono scendere oltre una soglia prestabilita (esempio 5-10%) su dati che presentano drift moderato rispetto ai dati di training.
- Gestione corretta degli input OOD: il modello robusto fornisce un punteggio di bassa confidenza o esplicitamente classifica come “sconosciuto” quando incontra dati fuori distribuzione, invece di generare predizioni sbagliate ad alta confidenza.
- Basso data drift score: gli strumenti automatizzati devono rilevare uno score PSI inferiore a 0.1 e superare tutte le principali verifiche di validazione fra dati di training e nuovi dataset.
Azioni di remediation
- Monitoraggio continuo di dati e modelli: utilizzare strumenti come
deepchecksoevidentlynelle pipeline MLOps per rilevare automaticamente drift dati, drift di concetto e decadimento delle performance, attivando alert in caso di anomalie. - Metodi di training robusto: applicare data augmentation per produrre dataset diversificati che espongano il modello a molte più variazioni e favoriscano la generalizzazione.
- Quantificazione dell’incertezza: progettare il modello in modo che possa esprimere il proprio grado di incertezza e demandare a revisione manuale i casi con predizione molto incerta.
- Retraining periodico: programmare sessioni regolari di riaddestramento su dati più recenti inclusivi della produzione, così da mantenere il modello aggiornato ai cambiamenti delle distribuzioni reali.
- Tecniche di domain adaptation: in presenza di determinati tipi di drift prevedibili, usare strategie mirate per insegnare al modello a risultare invariato rispetto ai cambiamenti previsti.
Strumenti suggeriti
- DeepChecks: libreria open-source Python per validare e testare ML models e dati, con rilevamento drift e altri problemi – DeepChecks su GitHub.
- Evidently AI: libreria Python open-source per valutare, testare e monitorare ML models in produzione. Fornisce report interattivi su data drift e performance – Evidently AI su GitHub.
- Alibi Detect: libreria Python per il rilevamento di outlier, attacchi avversariali e drift, con algoritmi per identificare dati OOD – Alibi Detect su GitHub.
Riferimenti
-
“Failing Loudly: An Empirical Study of Methods for Detecting Dataset Shift.” Rabanser, Stephan, et al. NeurIPS 2019.
Link -
OWASP Top 10 for LLM Applications 2025. “LLM05: Improper Output Handling.” OWASP, 2025.
Link -
NIST AI 100-2e2025, “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations,” Section 4.2 “Evaluation – Robustness and Resilience to Distribution Shifts.” NIST, March 2025.
Link
