Il test AITG-MOD-06 identifica vulnerabilità legate alla mancanza di robustezza dei modelli AI quando esposti a dati nuovi o fuori distribuzione (OOD). Queste problematiche si manifestano con cali di performance o comportamenti inattesi quando il modello incontra distribuzioni diverse da quelle di addestramento, compromettendo affidabilità e sicurezza.
Questo articolo fa parte del capitolo AI Model Testing della OWASP AI Testing Guide.
Obiettivi del test
- Valutare la resilienza del modello quando affronta distribuzioni di dati nuove o mai viste in precedenza.
- Identificare vulnerabilità che causano decadimento significativo delle performance con dati OOD.
- Verificare l’efficacia delle strategie difensive per mantenere accuratezza e stabilità in caso di shift di distribuzione.
Metodologia e payload
Data Drift Simulation
Utilizzare strumenti come deepchecks o evidently per confrontare le proprietà statistiche dei dati di addestramento con nuovi dati in produzione. Questo approccio permette di rilevare cambiamenti graduali o improvvisi nelle distribuzioni che possono compromettere le performance del modello.
Indicazione di vulnerabilità: drift significativo in molte feature, con media che si sposta oltre 3 deviazioni standard o PSI (Population Stability Index) superiore a 0.25.
Out-of-Distribution (OOD) Inputs
Inserire input semanticamente lontani da quelli conosciuti durante l’addestramento, come fornire l’immagine di un’auto a un classificatore addestrato solo su cani e gatti. Questo test verifica se il modello è in grado di riconoscere quando opera al di fuori del proprio dominio di competenza.
Indicazione di vulnerabilità: il modello restituisce predizioni ad alta confidenza per classi note invece di segnalare input sconosciuto, come classificare un’auto come “cane” con il 98% di confidenza.
Edge Case e Boundary Testing
Generare sistematicamente input ai limiti dei range previsti o scenari rari ma plausibili, come valori estremi nelle feature numeriche o combinazioni inusuali di attributi. Questo approccio identifica zone di fragilità dove il modello non ha ricevuto sufficiente esposizione durante il training.
Indicazione di vulnerabilità: previsioni erratiche o molto incerte su casi limite, segnalando mancata generalizzazione fuori dal core della distribuzione di addestramento.
Output atteso
- Performance stabile su nuovi dati: accuratezza, precisione e recall non devono scendere oltre una soglia prestabilita (5-10%) su dati con drift moderato rispetto al training.
- Gestione corretta degli input OOD: il modello robusto fornisce punteggi di bassa confidenza o classifica esplicitamente come “sconosciuto” quando incontra dati fuori distribuzione, invece di generare predizioni errate ad alta confidenza.
- Basso data drift score: PSI inferiore a 0.1 e superamento delle principali verifiche di validazione fra dati di training e nuovi dataset.
Azioni di remediation
Monitoraggio continuo del drift
Integrare strumenti come deepchecks o evidently nelle pipeline MLOps per rilevare automaticamente drift dati, drift di concetto e decadimento delle performance, attivando alert in caso di anomalie.
Impatto atteso: rilevamento tempestivo di cambiamenti nelle distribuzioni prima che causino degrado significativo delle performance in produzione.
Training robusto e data augmentation
Applicare data augmentation per produrre dataset diversificati che espongano il modello a maggiori variazioni e favoriscano la generalizzazione. Includere tecniche di domain randomization e synthetic data generation per ampliare la copertura distributiva.
Impatto atteso: miglioramento della capacità del modello di generalizzare su distribuzioni diverse da quelle di training, riducendo il rischio di failure su dati nuovi.
Quantificazione dell’incertezza
Progettare il modello per esprimere il proprio grado di incertezza utilizzando tecniche come ensemble methods, Bayesian neural networks o calibrazione delle probabilità. Demandare a revisione manuale i casi con predizione molto incerta.
Impatto atteso: identificazione automatica di input OOD o ambigui, permettendo escalation a operatori umani invece di generare predizioni errate ad alta confidenza.
Retraining periodico
Programmare sessioni regolari di riaddestramento su dati recenti inclusivi della produzione, mantenendo il modello aggiornato ai cambiamenti delle distribuzioni reali. Implementare strategie di continuous learning dove appropriato.
Impatto atteso: mantenimento delle performance nel tempo anche in presenza di drift graduale, adattando il modello alle evoluzioni naturali dei dati.
Domain adaptation
In presenza di drift prevedibili, usare strategie mirate per insegnare al modello a risultare invariato rispetto ai cambiamenti previsti. Applicare tecniche di transfer learning e fine-tuning su domini target specifici.
Impatto atteso: robustezza migliorata su shift di distribuzione noti o anticipabili, riducendo la necessità di retraining completo.
Strumenti suggeriti
- DeepChecks: libreria Python per validare e testare ML models e dati, con rilevamento drift e altri problemi
- Evidently AI: libreria Python per valutare, testare e monitorare ML models in produzione con report interattivi su data drift e performance
- Alibi Detect: libreria Python per rilevamento di outlier, attacchi avversariali e drift, con algoritmi per identificare dati OOD
Approfondimenti utili
Per completare la valutazione della robustezza del modello, consulta i test correlati che affrontano altri aspetti della sicurezza AI:
Riferimenti
- Rabanser, Stephan, et al. “Failing Loudly: An Empirical Study of Methods for Detecting Dataset Shift.” NeurIPS 2019. arXiv:1810.11953
- OWASP. “LLM05: Improper Output Handling.” OWASP Top 10 for LLM Applications 2025. OWASP LLM05
- NIST. “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations.” NIST AI 100-2e2025, Section 4.2, March 2025. DOI:10.6028/NIST.AI.100-2e2025
L’integrazione di monitoraggio continuo e strategie di training robusto aiuta a mantenere la resilienza del modello in produzione. Testare regolarmente la robustezza a nuovi dati è fondamentale per garantire affidabilità e sicurezza in scenari reali.

2 risposte
[…] AITG-MOD-06 – Testing for Robustness to New Data […]
[…] AITG-MOD-06 – Testing for Robustness to New Data […]