#reinforcement-learning
- Prime Intellect выпускает prime-rl v0.6.0 для агентного RL на триллионно-параметрических MoE-моделях Prime Intellect research
- Qwen-AgentWorld: языковые world-модели для универсальных агентов в семи средах Alibaba/Qwen research
- Sakana AI выпускает Fugu: мульти-LLM-оркестратор, достигающий SoTA на SWE-Bench Pro Sakana AI research
- DeepReinforce выпускает Ornith-1.0: открытые модели для программирования, самостоятельно обучающие свои RL-каркасы DeepReinforce tools
- MaxProof: модель MiniMax превышает пороги золотых медалей IMO и USAMO в формальной математике MiniMax research
- DreamX-World 1.0: интерактивная модель мира общего назначения с управлением камерой 6DoF AMAP-ML (Alibaba Maps AI Lab) research
- FastContext: специализированный субагент-исследователь сокращает использование токенов агентами по коду на 60% Microsoft / Shanghai Jiao Tong University research
- Игровое агентное обучение роботов: самостоятельная игра формирует переносимые навыки UC Berkeley research
- Tencent Hunyuan публикует в открытый доступ UniRL: унифицированное RL-дообучение для LLM и диффузионных моделей Tencent / Hunyuan research