monitorability — AI Digest

9 мая OpenAI Discloses Accidental Chain-of-Thought Grading in RL Training Across Six Models OpenAI research
21 июн How Transparent is DiffusionGemma? Interpretability Study Closes the Gap to Autoregressive Models Google DeepMind research