Tag: Testing for Goal Alignment

Verifica dell’allineamento tra gli obiettivi dichiarati di un sistema AI e il suo comportamento effettivo. Copre tecniche di testing per rilevare deviazioni, comportamenti emergenti non previsti, goal misalignment e situazioni in cui il modello ottimizza metriche surrogate invece degli obiettivi reali, con particolare attenzione ai rischi di reward hacking e specification gaming.

AITG-MOD-07: Testing for Goal Alignment

Tag: Testing for Goal Alignment

AITG-MOD-07: Testing for Goal Alignment