reinforcement-learning — AI Digest

24 июн Prime Intellect выпускает prime-rl v0.6.0 для агентного RL на триллионно-параметрических MoE-моделях Prime Intellect research
24 июн Qwen-AgentWorld: языковые world-модели для универсальных агентов в семи средах Alibaba/Qwen research
24 июн Sakana AI выпускает Fugu: мульти-LLM-оркестратор, достигающий SoTA на SWE-Bench Pro Sakana AI research
26 июн DeepReinforce выпускает Ornith-1.0: открытые модели для программирования, самостоятельно обучающие свои RL-каркасы DeepReinforce tools
14 июн MaxProof: модель MiniMax превышает пороги золотых медалей IMO и USAMO в формальной математике MiniMax research
16 июн DreamX-World 1.0: интерактивная модель мира общего назначения с управлением камерой 6DoF AMAP-ML (Alibaba Maps AI Lab) research
16 июн FastContext: специализированный субагент-исследователь сокращает использование токенов агентами по коду на 60% Microsoft / Shanghai Jiao Tong University research
21 июн Игровое агентное обучение роботов: самостоятельная игра формирует переносимые навыки UC Berkeley research
28 июн Tencent Hunyuan публикует в открытый доступ UniRL: унифицированное RL-дообучение для LLM и диффузионных моделей Tencent / Hunyuan research