scalable-oversight — AI Digest

8 мая Automated Weak-to-Strong Researcher: AI Agents Outperform Humans on Alignment Research Anthropic research
28 июн The Verification Horizon: No Single Reward Function Works for Coding Agents at Scale Qwen (Alibaba) research
9 июн Weak Critics Make Strong Learners: On-Policy Critique Distillation for Scalable Oversight Rutgers University research