-
OpenAI представляет семейство GPT-5.6: Sol, Terra и Luna — ограниченный выпуск только для одобренных правительством организаций
OpenAI
models-llm
-
VibeThinker-3B достигает показателей frontier-уровня на бенчмарках рассуждений через curriculum RL
WeiboAI
research
-
Recursive Multi-Agent Systems: общение агентов в latent space
Stanford University
research
-
Zyphra выпускает ZAYA1-8B: открытая рассуждающая MoE-модель, обученная на оборудовании AMD
Zyphra
models-llm
-
AI Co-Mathematician от Google DeepMind достигает 48% на FrontierMath Tier 4
Google DeepMind
research
-
RubricEM: мета-RL с декомпозицией политики под руководством рубрик за пределами верифицируемых наград
Google
research
-
SU-01: рассуждения на уровне золотой медали олимпиады через curriculum SFT и двухэтапный RL
SU-01 Team
research
-
SOOHAK: фронтирные LLM решают сложную математику, но не распознают неразрешимые задачи
research
-
Code as Agent Harness: Survey Positions Code as the Substrate for Executable Agent Systems (159 HF upvotes)
Multi-institution (42 authors)
research
-
SkillsVote: Lifecycle Governance of Agent Skills — Collection, Recommendation, Evolution (219 HF upvotes)
Memtensor Research Group / IAAR-Shanghai
research
-
Grok 4.3 доступен на Amazon Bedrock с контекстным окном 1 млн токенов
xAI
models-llm
-
Qwen-AgentWorld: языковые мировые модели для универсальных агентов на 35B и 397B параметров
Qwen Team, Alibaba
research
-
RoPE доказуемо не справляется с длинными контекстами: locality bias и согласованность токенов нарушаются
research
-
DRPO: переосмысление дивергентной регуляризации в обучении с подкреплением для LLM
Tencent Hunyuan
research
-
MaxProof: модель MiniMax превышает пороги золотых медалей IMO и USAMO в формальной математике
MiniMax
research
-
Ctx2Skill: фреймворк самосовершенствования для автономного обнаружения навыков из контекста в LLM
research
-
AI Co-Mathematician: Google DeepMind достигает 48% на FrontierMath Tier 4
Google DeepMind
research
-
SDAR: агентное обучение с подкреплением через самодистилляцию для многоходовых агентов
Zhejiang University / Meituan
research
-
MMSkills: переиспользуемые мультимодальные скиллы для универсальных визуальных агентов (105 апвоутов на HF)
Shanghai Jiao Tong University
research
-
GrepSeek: обучение поисковых агентов для прямого взаимодействия с корпусом через команды оболочки (93 апвоута на HF)
University of Massachusetts Amherst
research
-
ThoughtFold: интроспективное обучение предпочтениям сокращает токены рассуждения на 56% без потери точности
research
-
Детерминированный горизонт: теоретико-информационное доказательство ограничений расширенного CoT и необходимости использования инструментов
research
-
Иллюзия самокоррекции: LLM исправляют чужие ошибки, но не свои — причина в ролевых метках
research
-
GitHub Copilot получает контекстное окно в 1M токенов и настраиваемые уровни рассуждений
GitHub / Microsoft
tools
-
Агентные трансформеры доказуемо обучаются поиску в глубину через обучение с подкреплением
Carnegie Mellon University / Ohio State University
research
-
Arbor: автономное ML-исследование через уточнение дерева гипотез
NLPIR Lab
research
-
DeNovoSWE: генерация полного репозитория с нуля — рост с 5.8% до 47.2% на синтетических обучающих данных
AweAI Team
research
-
Z-Reward: распределения оценок вместо скалярных наград для RLHF в генерации изображений
Alibaba
research
-
Квантизированные модели рассуждения думают, что им нужно думать дольше, — но это не так
Meta
research
-
Детерминированный горизонт: когда расширенное рассуждение даёт сбой и необходима делегация инструментам
research
-
ESamp: LLM исследуют через latent distilling для семплирования по семантической новизне
ShanghaiTech University
research
-
Odysseus: обучение VLM для интерактивного принятия решений на 100+ ходов с помощью RL
Princeton University
research
-
Soohak: 64 математика создали исследовательский бенчмарк, который ставит frontier LLM в тупик
Seoul National University
research
-
AutoTTS: LLM-агенты автоматически открывают стратегии test-time scaling за $40
research
-
TrOPD: Trust-Region On-Policy Distillation Stabilizes LLM Training When Teacher-Student Gap Is Large
Samsung Research
research
-
Do Language Models Need Sleep? Offline Recurrence as Memory Consolidation for Improved Inference
Google / CMU
research
-
InterleaveThinker: RL-фреймворк для агентной генерации чередующегося текста и изображений
research
-
Astra: VLM с RL-обучением запрашивает симулятор мира для пространственных рассуждений
research
-
HeavySkill: интернализация «тяжёлого мышления» как обучаемого агентного навыка через RL
research
-
LongSeeker: эластичная оркестрация контекста для агентов долгосрочного поиска
Shanghai Jiao Tong University
research
-
Исполняемые мировые модели для ARC-AGI-3: подход агента программирования без игровой специфики
research
-
NanoResearch: совместная эволюция навыков, памяти и политики для персонализированной AI-автоматизации исследований
Shanghai AI Lab
research
-
TMAS: масштабирование тестового вычисления через синергию мультиагентов с иерархической памятью
research
-
Learning, Fast and Slow: двойная весовая архитектура для непрерывной адаптации LLM
research
-
BetaPRM: process rewards с учётом неопределённости сокращают расход reasoning-токенов на 33%
research
-
NudgeRL: стратегические контекстные подсказки для эффективного исследования в RLVR
KAIST AI
research
-
QUBRIC: Co-Designing Queries and Rubrics Extends RLVR to Open-Ended Reasoning Domains
research
-
Quantifying Faithful Confidence Expression in Large Reasoning Models
Yale NLP
research
-
SubtleMemory: бенчмарк выявляет систематические провалы агентов в тонком реляционном запоминании
research
-
VideoKR: обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео
Yale University
research
-
Слабые критики создают сильных учеников: On-Policy Critique Distillation для масштабируемого надзора
Rutgers University
research
-
SearchSwarm: обучаемое делегирование для LLM-агентов в долгосрочных исследовательских задачах
research
-
Память реконструируется, а не извлекается: графовая память улучшает запоминание у LLM-агентов на 23%
National University of Singapore
research
-
ZPPO: дистилляция знаний через учителя-в-промптах превосходит градиентные методы для малых моделей рассуждений
NVIDIA
research
-
Diffusion-Proof: формальное доказательство теорем с помощью диффузионных языковых моделей
research
-
DreamReasoner-8B: блоковый размерный curriculum для диффузионных reasoning-моделей
research
-
S-Agent: пространственное использование инструментов активирует пространственный интеллект в VLM
Nanyang Technological University
research
-
Агентные трансформеры доказуемо обучаются поиску через обучение с подкреплением
research
-
Плотного надзора недостаточно: слепое пятно считывания в зациклённых языковых моделях
research
-
OPRD: дистилляция представлений на политике для пост-обучения LLM
research