reasoning — AI Digest

28 июн OpenAI представляет семейство GPT-5.6: Sol, Terra и Luna — ограниченный выпуск только для одобренных правительством организаций OpenAI models-llm
17 июн VibeThinker-3B достигает показателей frontier-уровня на бенчмарках рассуждений через curriculum RL WeiboAI research
30 апр Recursive Multi-Agent Systems: общение агентов в latent space Stanford University research
9 мая Zyphra выпускает ZAYA1-8B: открытая рассуждающая MoE-модель, обученная на оборудовании AMD Zyphra models-llm
10 мая AI Co-Mathematician от Google DeepMind достигает 48% на FrontierMath Tier 4 Google DeepMind research
13 мая RubricEM: мета-RL с декомпозицией политики под руководством рубрик за пределами верифицируемых наград Google research
15 мая SU-01: рассуждения на уровне золотой медали олимпиады через curriculum SFT и двухэтапный RL SU-01 Team research
18 мая SOOHAK: фронтирные LLM решают сложную математику, но не распознают неразрешимые задачи research
20 мая Code as Agent Harness: Survey Positions Code as the Substrate for Executable Agent Systems (159 HF upvotes) Multi-institution (42 authors) research
20 мая SkillsVote: Lifecycle Governance of Agent Skills — Collection, Recommendation, Evolution (219 HF upvotes) Memtensor Research Group / IAAR-Shanghai research
18 июн Grok 4.3 доступен на Amazon Bedrock с контекстным окном 1 млн токенов xAI models-llm
26 июн Qwen-AgentWorld: языковые мировые модели для универсальных агентов на 35B и 397B параметров Qwen Team, Alibaba research
18 мая RoPE доказуемо не справляется с длинными контекстами: locality bias и согласованность токенов нарушаются research
10 июн DRPO: переосмысление дивергентной регуляризации в обучении с подкреплением для LLM Tencent Hunyuan research
14 июн MaxProof: модель MiniMax превышает пороги золотых медалей IMO и USAMO в формальной математике MiniMax research
6 мая Ctx2Skill: фреймворк самосовершенствования для автономного обнаружения навыков из контекста в LLM research
8 мая AI Co-Mathematician: Google DeepMind достигает 48% на FrontierMath Tier 4 Google DeepMind research
16 мая SDAR: агентное обучение с подкреплением через самодистилляцию для многоходовых агентов Zhejiang University / Meituan research
19 мая MMSkills: переиспользуемые мультимодальные скиллы для универсальных визуальных агентов (105 апвоутов на HF) Shanghai Jiao Tong University research
2 июн GrepSeek: обучение поисковых агентов для прямого взаимодействия с корпусом через команды оболочки (93 апвоута на HF) University of Massachusetts Amherst research
4 июн ThoughtFold: интроспективное обучение предпочтениям сокращает токены рассуждения на 56% без потери точности research
6 июн Детерминированный горизонт: теоретико-информационное доказательство ограничений расширенного CoT и необходимости использования инструментов research
6 июн Иллюзия самокоррекции: LLM исправляют чужие ошибки, но не свои — причина в ролевых метках research
8 июн GitHub Copilot получает контекстное окно в 1M токенов и настраиваемые уровни рассуждений GitHub / Microsoft tools
8 июн Агентные трансформеры доказуемо обучаются поиску в глубину через обучение с подкреплением Carnegie Mellon University / Ohio State University research
11 июн Arbor: автономное ML-исследование через уточнение дерева гипотез NLPIR Lab research
11 июн DeNovoSWE: генерация полного репозитория с нуля — рост с 5.8% до 47.2% на синтетических обучающих данных AweAI Team research
11 июн Z-Reward: распределения оценок вместо скалярных наград для RLHF в генерации изображений Alibaba research
25 июн Квантизированные модели рассуждения думают, что им нужно думать дольше, — но это не так Meta research
26 июн Детерминированный горизонт: когда расширенное рассуждение даёт сбой и необходима делегация инструментам research
2 мая ESamp: LLM исследуют через latent distilling для семплирования по семантической новизне ShanghaiTech University research
5 мая Odysseus: обучение VLM для интерактивного принятия решений на 100+ ходов с помощью RL Princeton University research
11 мая Soohak: 64 математика создали исследовательский бенчмарк, который ставит frontier LLM в тупик Seoul National University research
11 мая AutoTTS: LLM-агенты автоматически открывают стратегии test-time scaling за $40 research
3 июн TrOPD: Trust-Region On-Policy Distillation Stabilizes LLM Training When Teacher-Student Gap Is Large Samsung Research research
3 июн Do Language Models Need Sleep? Offline Recurrence as Memory Consolidation for Improved Inference Google / CMU research
12 июн InterleaveThinker: RL-фреймворк для агентной генерации чередующегося текста и изображений research
12 июн Astra: VLM с RL-обучением запрашивает симулятор мира для пространственных рассуждений research
6 мая HeavySkill: интернализация «тяжёлого мышления» как обучаемого агентного навыка через RL research
7 мая LongSeeker: эластичная оркестрация контекста для агентов долгосрочного поиска Shanghai Jiao Tong University research
7 мая Исполняемые мировые модели для ARC-AGI-3: подход агента программирования без игровой специфики research
12 мая NanoResearch: совместная эволюция навыков, памяти и политики для персонализированной AI-автоматизации исследований Shanghai AI Lab research
12 мая TMAS: масштабирование тестового вычисления через синергию мультиагентов с иерархической памятью research
13 мая Learning, Fast and Slow: двойная весовая архитектура для непрерывной адаптации LLM research
18 мая BetaPRM: process rewards с учётом неопределённости сокращают расход reasoning-токенов на 33% research
19 мая NudgeRL: стратегические контекстные подсказки для эффективного исследования в RLVR KAIST AI research
3 июн QUBRIC: Co-Designing Queries and Rubrics Extends RLVR to Open-Ended Reasoning Domains research
3 июн Quantifying Faithful Confidence Expression in Large Reasoning Models Yale NLP research
8 июн SubtleMemory: бенчмарк выявляет систематические провалы агентов в тонком реляционном запоминании research
8 июн VideoKR: обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео Yale University research
9 июн Слабые критики создают сильных учеников: On-Policy Critique Distillation для масштабируемого надзора Rutgers University research
10 июн SearchSwarm: обучаемое делегирование для LLM-агентов в долгосрочных исследовательских задачах research
16 июн Память реконструируется, а не извлекается: графовая память улучшает запоминание у LLM-агентов на 23% National University of Singapore research
17 июн ZPPO: дистилляция знаний через учителя-в-промптах превосходит градиентные методы для малых моделей рассуждений NVIDIA research
18 июн Diffusion-Proof: формальное доказательство теорем с помощью диффузионных языковых моделей research
18 июн DreamReasoner-8B: блоковый размерный curriculum для диффузионных reasoning-моделей research
22 июн S-Agent: пространственное использование инструментов активирует пространственный интеллект в VLM Nanyang Technological University research
23 июн Агентные трансформеры доказуемо обучаются поиску через обучение с подкреплением research
26 июн Плотного надзора недостаточно: слепое пятно считывания в зациклённых языковых моделях research
26 июн OPRD: дистилляция представлений на политике для пост-обучения LLM research