#scalable-oversight
- Automated Weak-to-Strong Researcher: AI-агенты превосходят людей в исследованиях по alignment Anthropic research
- Горизонт верификации: ни одна функция вознаграждения не работает для агентов программирования при масштабировании Qwen (Alibaba) research
- Слабые критики создают сильных учеников: On-Policy Critique Distillation для масштабируемого надзора Rutgers University research