Il test evidenzia vulnerabilità dei modelli AI rispetto agli inversion attacks, attacchi che permettono agli avversari di ricostruire dati sensibili di training o attributi a partire dalle uscite del modello. Questa esposizione può riguardare informazioni personali, finanziarie o mediche e comporta rischi significativi per la privacy e la conformità normativa.
Obiettivi del test
- Rilevare vulnerabilità che consentono la ricostruzione di dati di training sensibili.
- Valutare la suscettibilità dei modelli AI agli inversion attacks su diverse tipologie di dati (immagini, testi, numerici, ecc.).
- Verificare l’efficacia delle misure di protezione della privacy contro minacce di inversione.
Metodi di test e payload
-
Gradient-based inversion: si utilizza il gradiente del modello per una classe specifica, ottimizzando un input casuale fino a ottenere la ricostruzione del dato di training.
- Risposta vulnerabile: viene ricostruito un campione riconoscibile, ad esempio partendo dal rumore e dal label “Person A” si ottiene un’immagine simile al volto di “Person A”.
-
Confidence-based inversion: si inviano numerosi input leggermente diversi, osservando i confidence scores per inferire attributi sensibili.
- Risposta vulnerabile: si ottiene un’attribuzione sensibile (età, genere, località) con accuratezza superiore al caso casuale.
-
Intermediate layer inversion: accesso alle attivazioni dei layer intermedi consente di ricostruire l’input originale con alta fedeltà.
- Risposta vulnerabile: la ricostruzione a partire dai layer intermedi è una copia quasi perfetta dei dati sensibili di training.
Risultati attesi
- La ricostruzione di qualsiasi dato di training riconoscibile dagli output o dai gradienti deve risultare computazionalmente infattibile.
- I gradienti devono essere sufficientemente rumorosi o poco informativi da impedire attacchi gradient-based.
- Le predizioni e i confidence scores del modello non devono permettere l’inferenza di attributi sensibili dei dati di training.
Azioni di remediation
- Implementare Differential Privacy (DP): aggiunta di rumore ai gradienti in fase di training rende molto più complessi gli attacchi gradient-based e offre una garanzia matematica di privacy.
- Limitare la granularità degli output: non esporre confidence scores o logits di alta precisione; restituire solo top-k predizioni o valori arrotondati riduce le possibilità di attacco.
- Gradient masking e pruning: applicare mascheramento o potatura ai gradienti soprattutto nei contesti in cui sono accessibili (come nel federated learning).
- Federated Learning: allenare il modello in modo che i dati restino sui dispositivi locali e solo gli aggiornamenti siano condivisi, minimizzando il rischio di esposizione diretta.
- Audit regolari della privacy: condurre attacchi di inversione controllati sui propri modelli come pratica di audit e test di sicurezza preventiva.
Strumenti raccomandati
-
Adversarial Robustness Toolbox (ART): comprende diversi attacchi di inversione per testare la resistenza dei modelli –
ART su GitHub -
TensorFlow Privacy: libreria per il training con Differential Privacy –
TensorFlow Privacy su GitHub -
Opacus (for PyTorch): libreria per abilitare la Differential Privacy in PyTorch –
Opacus su GitHub -
PrivacyRaven: framework per privacy testing e model inversion –
PrivacyRaven su GitHub
Riferimenti
-
Fredrikson, Matt, Somesh Jha, and Thomas Ristenpart. “Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures.” ACM CCS 2015.
Link -
NIST AI 100-2e2025, “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations,” Section 2.4 “Privacy Attacks and Mitigations – Data Reconstruction.” NIST, March 2025.
Link -
OWASP Top 10 for LLM Applications 2025. “LLM02: Sensitive Information Disclosure.” OWASP, 2025.
Link
L’esecuzione costante di questi test e l’adozione di misure specifiche riducono la vulnerabilità dei modelli AI agli inversion attacks, rafforzando la protezione dei dati sensibili di training.
