Tag: Testing for Goal Alignment
Verifica dell’allineamento tra gli obiettivi dichiarati di un sistema AI e il suo comportamento effettivo. Copre tecniche di testing per rilevare deviazioni, comportamenti emergenti non previsti, goal misalignment e situazioni in cui il modello ottimizza metriche surrogate invece degli obiettivi reali, con particolare attenzione ai rischi di reward hacking e specification gaming.
