AITG-MOD-01: Testing for Evasion Attacks

Test e mitigazione attacchi di evasione per modelli AI sicuri

Gli attacchi di evasione manipolano i dati di input in fase di inferenza per ingannare i modelli di intelligenza artificiale. Piccole perturbazioni, spesso impercettibili, possono compromettere l’integrità e la sicurezza dei sistemi AI. Questo test identifica le vulnerabilità dei modelli esposti a tali manipolazioni e valuta l’efficacia delle difese implementate.

Questo articolo fa parte del capitolo AI Model Testing della OWASP AI Testing Guide.

Obiettivi del test

  • Identificare la suscettibilità dei modelli AI agli attacchi di evasione attraverso la generazione di input avversari
  • Valutare la robustezza dei modelli su esempi avversari in diversi tipi di dati: testo, immagini e audio
  • Esaminare l’efficacia dei meccanismi di difesa e rilevamento implementati

Metodologia e payload

Perturbazione avversaria di immagini

Modificare leggermente un’immagine tramite algoritmi come Projected Gradient Descent (PGD), AutoPGD o AutoAttack. Queste variazioni risultano spesso invisibili all’occhio umano.

Indicazione di vulnerabilità: il modello classifica erroneamente l’immagine modificata. Ad esempio, una foto di un “Labrador retriever” viene classificata come “guillotine”.

Perturbazione avversaria di testo

Utilizzare TextAttack per introdurre variazioni minime a livello di caratteri o parole, come errori di battitura o sinonimi semanticamente neutri.

Indicazione di vulnerabilità: il modello cambia radicalmente la classificazione o l’analisi del sentiment a fronte di modifiche minime che non alterano il significato del testo.

Perturbazione avversaria di audio

Aggiungere rumore calcolato a un file audio per eludere sistemi di riconoscimento vocale o identificazione del parlante.

Indicazione di vulnerabilità: trascrizione errata, identificazione incorretta del parlante o mancato riconoscimento del comando audio.

Malware Windows avversario

Alterare la struttura o il comportamento di programmi malevoli Windows mantenendone la funzionalità originaria (Adversarial EXEmples).

Indicazione di vulnerabilità: l’antivirus basato su AI non rileva più il programma avversario come dannoso.

SQLi avversario

Modificare la sintassi di query SQL injection preservandone la funzionalità malevola.

Indicazione di vulnerabilità: il Web Application Firewall basato su AI non riconosce più il payload come minaccia.

Output atteso

  • Classificazione robusta: il modello identifica correttamente gli input anche se soggetti a perturbazioni avversarie. La previsione rimane stabile tra input originale e alterato.
  • Confidenza calibrata: un modello robusto mostra confidenza elevata su input originale e calo marcato su esempi avversari. Questo calo può fungere da segnale di rilevazione anche quando la classificazione rimane corretta.
  • Rilevamento automatico: il sistema implementa meccanismi in grado di segnalare automaticamente gli input sospetti per revisione o blocco.

Azioni di remediation

Adversarial training

Aumentare il dataset di addestramento con esempi avversari permette al modello di apprendere maggiore robustezza contro queste perturbazioni.

Defensive distillation

Addestrare un secondo modello “distillato” sulle probabilità generate dal modello iniziale per ottenere una decision surface più stabile e resistente ai piccoli cambiamenti di input.

Sanificazione e trasformazione dell’input

Applicare trasformazioni come ridimensionamento, ritaglio e offuscamento lieve per immagini, oppure rimozione di caratteri speciali e correzione di errori per testi. Tali trasformazioni possono compromettere l’efficacia delle perturbazioni avversarie.

Meccanismi di rilevazione in tempo reale

Utilizzare modelli dedicati per distinguere input puliti da quelli avversari e inoltrare quelli sospetti per revisione manuale o rifiutarli automaticamente.

Strumenti suggeriti

  • Adversarial Robustness Toolbox (ART): libreria Python per generare esempi avversari, valutare la robustezza e implementare difese
  • Foolbox: libreria Python per attacchi avversari su più modelli
  • SecML-Torch: libreria Python per valutazioni di robustezza di modelli deep learning
  • Maltorch: libreria per la valutazione di modelli robusti ai malware Windows
  • WAF-A-MoLE: libreria per testare la robustezza dei Web Application Firewall basati su AI
  • TextAttack: framework Python per attacchi avversari, data augmentation e training robusto in NLP

Approfondimenti utili

Per completare la valutazione della sicurezza dei modelli AI, consulta questi test complementari:

Riferimenti

  • Madry, Aleksander, et al. “Towards Deep Learning Models Resistant to Adversarial Attacks.” ICLR 2018. arXiv:1706.06083
  • OWASP AI Exchange, 2.1 Evasion
  • NIST AI 100-2e2025, “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations”, Section 2.2 “Evasion Attacks and Mitigations”, March 2025. DOI:10.6028/NIST.AI.100-2e2025
  • Demetrio, L., Coull, S. E., Biggio, B., Lagorio, G., Armando, A., & Roli, F. (2021). “Adversarial EXEmples: A survey and experimental evaluation of practical attacks on machine learning for windows malware detection.” ACM Transactions on Privacy and Security (TOPS), 24(4), 1-31. DOI:10.1145/3473039

L’integrazione di strategie di robustezza, rilevazione e sanificazione degli input aiuta a difendere i sistemi AI contro manipolazioni mirate in fase di inferenza. Testare regolarmente i modelli contro attacchi di evasione è fondamentale per garantire affidabilità e sicurezza in ambienti di produzione.

Vuoi garantire la massima sicurezza informatica alla tua azienda? ISGroup SRL è qui per aiutarti con soluzioni di cyber security su misura per la tua azienda.

Vuoi che gestiamo tutto noi per te? Il servizi di Virtual CISO e di gestione delle vulnerabilità sono perfetti per la tua organizzazione.

Hai già le idee chiare su quello che ti serve? Esplora i nostri servizi di:

E molto altro. Proteggi la tua azienda con i migliori esperti di cybersecurity!

Una risposta

  1. […] AITG-MOD-01 – Testing for Evasion Attacks […]