Il testing per dataset diversity & coverage valuta se i dataset di training e di valutazione di un modello AI rappresentano scenari, popolazioni e contesti differenti. L’assenza di diversità o rappresentatività sufficiente può produrre risultati distorti, limitare la generalizzazione e causare prestazioni scarse in condizioni reali.
Obiettivi del test
- Verificare che i dataset di training rappresentino gruppi demografici diversi, vari contesti e le condizioni riscontrabili nel mondo reale.
- Individuare carenze o bias nella copertura che possano comportare iniquità, output distorti o generalizzazione ridotta del modello.
- Garantire che i dataset rispettino standard di Responsible AI, vincoli normativi ed etici.
Come effettuare il test
Demographic and population representation analysis
- Conduci analisi statistiche per confrontare la distribuzione demografica del dataset con quella reale.
- Una vulnerabilità si manifesta quando alcune categorie demografiche sono rappresentate in modo significativamente diverso rispetto all’utenza di riferimento.
Scenario and contextual coverage test
- Valuta la completezza e varietà degli scenari reali rispetto all’uso atteso del modello.
- Se mancano scenari reali critici o sono sotto-rappresentati nel dataset, si evidenzia una vulnerabilità.
Bias detection and fairness analysis
- Utilizza metriche di fairness (demographic parity, equal opportunity) e strumenti di rilevazione degli squilibri nei dataset.
- Una vulnerabilità emerge se vengono identificati bias sostanziali o una rappresentazione sproporzionata di specifici gruppi demografici o contestuali.
Output atteso
- La distribuzione degli attributi demografici deve rispecchiare quella della popolazione a cui il modello si rivolge. Nessun gruppo deve essere inferiore al 5% del totale.
- Gli output del dataset non devono presentare bias evidenti. Il Demographic Parity Difference deve rimanere sotto al 15% per tutti gli attributi sensibili.
- Il dataset deve includere una documentazione trasparente (datasheet) delle fonti, della composizione e di eventuali limiti noti.
Azioni di remediation
- Sourcing e aumento di dati provenienti da gruppi sottorappresentati o regioni meno presenti.
- Ricorso a data augmentation (SMOTE per dati tabellari, back-translation per testi), verificando che le tecniche non introducano artefatti non realistici.
- Esecuzione di fairness audit regolari tramite processi CI che monitorano costantemente la distribuzione e la fairness dei dati.
- Applicazione di tecniche di pre-processing, come oversampling o undersampling, oppure ripesatura dei dati, così da bilanciare l’influenza delle varie classi sul training.
- Compilazione di datasheet che documentano motivazione, composizione, processo di raccolta e utilizzi raccomandati di ogni dataset.
Strumenti suggeriti
-
IBM AI Fairness 360 –
https://aif360.mybluemix.net/
-
Fairlearn –
https://fairlearn.org/
-
TensorFlow Data Validation (TFDV) –
https://www.tensorflow.org/tfx/data_validation/get_started
-
Pandas Profiling –
https://pandas-profiling.github.io/pandas-profiling/
Approfondimenti
Il testing per dataset diversity & coverage consente di individuare e correggere gap, bias e rischi di scarsa generalizzazione, supportando la creazione di modelli equi, affidabili e più solidi in condizioni reali.
