Горизонт верификации: ни одна функция вознаграждения не работает для агентов программирования при масштабировании

Qwen (Alibaba)

исследования офиц. + СМИ 2 ист. ~1 мин

Эта статья команды Qwen оспаривает предположение, что верификация — это простая половина подхода «сгенерировать, затем проверить» для агентов программирования. Изучив четыре конструкции вознаграждений для задач общего программирования, фронтенда и долгосрочных задач, авторы обнаруживают, что ни одна статическая функция вознаграждения не остаётся эффективной по мере роста возможностей политики. Верификация должна со-эволюционировать с генератором и характеризуется по трём осям: масштабируемость, достоверность и робастность.

Почему это важно

Взлом вознаграждений и игра на спецификациях — центральные проблемы при обучении способных агентов программирования. Статья предоставляет строгую систему для режимов сбоев верификации на фронтире с прямыми последствиями для разработки RL-пайплайнов в лабораториях.

Важность: 2/5

Непосредственно релевантно для фронтирного RL-обучения агентов программирования; от команды Alibaba Qwen

rl reward-hacking coding-agents agentic-rl scalable-oversight verification

Источники

официальный The Verification Horizon: No Silver Bullet for Coding Agent Rewards | arXiv

СМИ The Verification Horizon | HuggingFace Daily Papers