scalable-oversight — AI Digest

8 мая Automated Weak-to-Strong Researcher: AI-агенты превосходят людей в исследованиях по alignment Anthropic research
28 июн Горизонт верификации: ни одна функция вознаграждения не работает для агентов программирования при масштабировании Qwen (Alibaba) research
9 июн Слабые критики создают сильных учеников: On-Policy Critique Distillation для масштабируемого надзора Rutgers University research