Best 2 Safe Rlhf Open Source Projects

Reading list for adversarial perspective and robustness in deep reinforc...

Safe-RLHF: Constrained Value Alignment via Safe Reinforcement Learning f...