Горизонт верификации: ни одна функция вознаграждения не работает для агентов программирования при масштабировании
Qwen (Alibaba)
Эта статья команды Qwen оспаривает предположение, что верификация — это простая половина подхода «сгенерировать, затем проверить» для агентов программирования. Изучив четыре конструкции вознаграждений для задач общего программирования, фронтенда и долгосрочных задач, авторы обнаруживают, что ни одна статическая функция вознаграждения не остаётся эффективной по мере роста возможностей политики. Верификация должна со-эволюционировать с генератором и характеризуется по трём осям: масштабируемость, достоверность и робастность.
Почему это важно
Взлом вознаграждений и игра на спецификациях — центральные проблемы при обучении способных агентов программирования. Статья предоставляет строгую систему для режимов сбоев верификации на фронтире с прямыми последствиями для разработки RL-пайплайнов в лабораториях.
Важность: 2/5
Непосредственно релевантно для фронтирного RL-обучения агентов программирования; от команды Alibaba Qwen