Tag: AI Goal Alignment Testing

Verifica di allineamento tra obiettivi dichiarati e comportamento osservato in sistemi AI, rilevando goal drift, reward hacking o interpretazioni distorte delle istruzioni. Copre tecniche per identificare misalignment tra intent specification e azioni effettive, con focus su robustezza degli obiettivi in scenari edge-case e sotto distributional shift