Gli attacchi ai dataset di training compromettono l’integrità del modello AI inserendo dati malevoli durante la fase di addestramento. Questi attacchi introducono bias, backdoor persistenti o degradano l’accuratezza del modello, con impatti diretti su affidabilità operativa e conformità normativa.
Questo articolo fa parte del capitolo AI Model Testing della OWASP AI Testing Guide.
Obiettivi del test
- Individuare campioni malevoli o corrotti all’interno dei dataset di training.
- Valutare la robustezza del modello contro attacchi di data poisoning mirati, indiscriminati o con backdoor.
- Verificare l’integrità delle fonti dati e delle pipeline di preprocessing.
- Analizzare l’efficacia delle contromisure per identificare e mitigare dati avvelenati.
Metodologia e payload
Label Flipping Attack
Una porzione del dataset viene modificata sostituendo le etichette corrette con valori errati, simulando un attacco indiscriminato che degrada l’accuratezza generale del modello.
Indicazione di vulnerabilità: Tool di auditing come cleanlab identificano oltre il 2% di problemi di etichettatura, suggerendo corruzione sistematica rispetto al rumore casuale atteso.
Backdoor Trigger Injection
Campioni di training vengono modificati inserendo trigger non evidenti (pattern visivi specifici, frasi rare, watermark nascosti) associati a una classe target, creando una backdoor attivabile in fase di inferenza.
Indicazione di vulnerabilità: Algoritmi di anomaly detection evidenziano cluster compatti nel feature space distanti dalla distribuzione tipica della classe assegnata, segnalando possibili pattern backdoor.
Targeted Poisoning
Campioni di un sottogruppo specifico vengono alterati o etichettati male per degradare selettivamente la performance del modello solo su quel segmento, mantenendo l’accuratezza generale apparentemente normale.
Indicazione di vulnerabilità: Il modello mostra un calo drastico di accuratezza (oltre il 20%) sul sottogruppo target rispetto all’accuratezza generale, indicando manipolazione mirata del training set.
Feature Poisoning
Modifiche sottili alle feature di input (rumore impercettibile, alterazioni di pixel, perturbazioni semantiche) vengono inserite sistematicamente per influenzare il comportamento del modello su specifici pattern.
Indicazione di vulnerabilità: Analisi statistica del dataset rivela distribuzioni anomale di feature o correlazioni inattese tra attributi e label, segnalando possibile manipolazione delle feature.
Output atteso
- Dataset validato: Il training set non deve contenere errori di etichettatura o pattern malevoli rilevabili. Le segnalazioni automatiche di anomalie devono essere inferiori all’1% dei campioni totali.
- Anomaly detection efficace: Il sistema di validazione deve identificare automaticamente cluster anomali, pattern sospetti o distribuzioni statistiche incompatibili con dati puliti.
- Performance uniforme: Il modello addestrato su dati controllati non deve mostrare bias anomali, backdoor attivabili o degradazione selettiva su sottogruppi specifici.
Azioni di remediation
Pipeline di validazione automatizzata
Implementare una pipeline di sanitizzazione obbligatoria prima dell’addestramento, utilizzando strumenti come cleanlab per correzione automatica delle label e anomaly detection per identificare campioni sospetti.
Impatto atteso: Riduzione del tasso di errore di etichettatura sotto l’1% e identificazione automatica di cluster anomali prima che influenzino il training.
Versionamento e tracciabilità dei dataset
Adottare dataset versionati con strumenti come DVC, collegando ogni modello alla specifica versione dei dati di training e mantenendo audit trail completo delle modifiche al dataset.
Impatto atteso: Capacità di rollback immediato a versioni precedenti del dataset in caso di rilevamento di poisoning e tracciabilità completa delle modifiche ai dati.
Privacy differenziale nel training
Applicare tecniche di privacy differenziale durante l’addestramento per limitare l’influenza di singoli campioni malevoli sul modello finale, rendendo gli attacchi di poisoning meno efficaci.
Impatto atteso: Riduzione dell’impatto di campioni avvelenati sul comportamento del modello, con degradazione massima contenuta sotto il 5% anche in presenza di poisoning limitato.
Monitoraggio continuo del data drift
Implementare sistemi di monitoraggio statistico continuo della distribuzione dei dati di training, con alert automatici per cambiamenti improvvisi che possono indicare inserimento di dati malevoli.
Impatto atteso: Rilevamento in tempo reale di anomalie statistiche nel dataset con alert entro 24 ore dall’inserimento di dati sospetti.
Sicurezza della pipeline MLOps
Proteggere l’intera pipeline MLOps con controlli di accesso rigorosi, version control obbligatorio su dati e codice, e revisioni obbligatorie per qualsiasi modifica alla pipeline dati o agli script di training.
Impatto atteso: Prevenzione di modifiche non autorizzate al dataset e tracciabilità completa di tutte le operazioni sulla pipeline dati.
Strumenti suggeriti
- Cleanlab: rilevamento e correzione automatica di errori di label, outlier e anomalie nel dataset
- Adversarial Robustness Toolbox (ART): simulazione di attacchi di data poisoning e sperimentazione di difese come activation clustering
- Data Version Control (DVC): versionamento dei dataset per garantire riproducibilità e integrità
- TensorFlow Data Validation (TFDV): analisi e validazione in scala dei dati machine learning per individuare anomalie e drift
Riferimenti
- Northcutt et al., “Confident Learning: Estimating Uncertainty in Dataset Labels”, Journal of Artificial Intelligence Research, 2021 – arXiv:1911.00068
- OWASP, “LLM04: Data and Model Poisoning”, OWASP Top 10 for LLM Applications 2025 – OWASP LLM04:2025
- NIST, “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations”, NIST AI 100-2e2025, Section 2.3, March 2025 – DOI:10.6028/NIST.AI.100-2e2025
Approfondimenti utili
Per completare la comprensione degli attacchi ai modelli AI, consulta gli altri test del capitolo AI Model Testing:
L’integrazione di pipeline di validazione automatizzate e il versionamento rigoroso dei dataset aiutano a prevenire l’inserimento di dati malevoli nei modelli. Testare regolarmente l’integrità dei training set è fondamentale per garantire affidabilità e robustezza in produzione.

2 risposte
[…] Test AITG-MOD-03 per Poisoned Training Sets […]
[…] AITG-MOD-03 – Testing for Poisoned Training Sets […]