Monitoring Reasoning Models for Misbehavior and the Risks of Reward Hacking • Libertify

Monitoring Reasoning Models for Misbehavior and the Risks of Reward Hacking • Libertify