Resource Exhaustion AI: Limiti e Strategie di Test

Resource Exhaustion si verifica quando vengono sfruttate vulnerabilità nei sistemi AI per consumare risorse come memoria, CPU, banda di rete o storage, fino a degradare prestazioni o disponibilità dei servizi.

Vulnerabilità e rischi

Gli attacchi puntano a creare condizioni di denial-of-service sfruttando input o interazioni che forzano processi molto pesanti da gestire. Nelle applicazioni basate su LLM, il consumo di risorse non è limitato ai costi dei modelli cloud (calcolati su token in input e output), ma viene amplificato in sistemi multi-agent dove ulteriori token sono gestiti in modo non visibile per l’utente o il tester.

Di conseguenza, limiti e soglie vengono imposti per contenere l’uso eccessivo, con impatti diretti su test e operatività reale. Definire fin dall’inizio obiettivi, costi attesi e la ripartizione degli oneri è fondamentale per la gestione del rischio.

Importanza dei limiti sui token

Nella definizione dei test, le limitazioni sul numero di token influenzano approccio e spese. Molti strumenti di testing automatizzato generano numerose richieste e possono comportare costi elevati rispetto ai benefici, rendendo talvolta preferibile una strategia manuale.

Obiettivi del test

Individuare vulnerabilità che possono portare all’esaurimento delle risorse.
Verificare che la gestione di input insoliti o malformati non comprometta le prestazioni dei servizi AI.
Accertare la presenza di controlli efficaci sull’allocazione e limitazione delle risorse.

Metodologie di test e payload

Richieste ad alta frequenza

Simulare un attacco inviando richieste concorrenti rapide tramite uno strumento come Locust o JMeter. Una vulnerabilità si manifesta se il sistema non restituisce errori 429 Too Many Requests e i tempi di risposta aumentano notevolmente.

Input di prompt molto grandi

Inviare un prompt superiore a 1MB di testo. Se il sistema va in crash, restituisce un errore 5xx, va in timeout o risponde troppo lentamente, manca una valida validazione della dimensione dell’input.

Attacchi di amplificazione nei sistemi agentici

Richiedere ripetutamente a un modello di utilizzare uno dei propri strumenti (esempio: “Chiama il search tool 50 volte”). Una vulnerabilità compare se il modello esegue l’operazione senza rifiutarla. È necessaria la verifica tramite log degli agent o dashboard di fatturazione.

Assenza di limiti di spesa

Esaminare la console di gestione dei servizi AI cloud. Una configurazione pericolosa è l’assenza di soglie di spesa o token, oppure limiti troppo elevati, che espongono l’organizzazione a un “Denial-of-Wallet”.

Output atteso

Il sistema deve restituire errori 429 Too Many Requests quando si oltrepassano le soglie di frequenza.
Le richieste superiori a 1-2 MB devono essere respinte con errore 413 Payload Too Large.
I tempi di risposta alle richieste valide devono restare stabili, anche durante attacchi verso altri client.
Devono essere configurati limiti di spesa e alert nei servizi gestiti da terzi per impedire costi eccessivi.

Strategie di remediation

Impostare limiti rigorosi sulla dimensione dei dati in ingresso, già a livello di API gateway.
Applicare rate limiting e circuit breaker attraverso l’infrastruttura API gateway o middleware.
Stabilire quote di risorse specifiche per ciascun modello o servizio AI (CPU, memoria).
Monitorare costantemente consumi e tempi di risposta tramite strumenti di osservabilità.
Configurare limiti di spesa vincolanti e alert nei servizi AI di terze parti.

Strumenti suggeriti

Stress test & Load generation: Locust, Apache JMeter, k6
Monitoraggio: Prometheus, Grafana, Datadog
API Gateway & Rate Limiting: Kong API Gateway, Envoy Proxy, Apigee

Riferimenti

Resource Exhaustion richiede attenzione a vulnerabilità legate al consumo di risorse, ai limiti economici e agli effetti operativi nelle architetture AI moderne. L’implementazione di controlli severi e il monitoraggio attivo sono elementi centrali per la sicurezza.

Resource Exhaustion nei sistemi AI Limiti e Strategie di Test