Tag: Adversarial Prompt Engineering

Tecniche di manipolazione dei prompt per indurre modelli di linguaggio e sistemi AI generativi a produrre output non previsti, bypassare filtri di sicurezza o rivelare informazioni sensibili. Include prompt injection, jailbreaking, context manipulation e strategie di evasione dei guardrail implementati nei Large Language Model.