#efficiency
- Qwen-Image-2.0: унифицированная генерация и редактирование изображений в разрешении 2K, первое место на AI Arena Alibaba research
- Baidu выпускает ERNIE 5.1 при 6% отраслевых затрат на предобучение и входит в мировой топ-10 поиска Baidu models-llm
- JetSpec: преодоление потолка масштабирования спекулятивного декодирования с помощью параллельного построения деревьев черновиков Hao AI Lab, UC San Diego research
- Kwai Keye-VL-2.0: открытая мультимодальная MoE-модель 30B с контекстом 256K для длинного видео Kwai research
- MiniMax Sparse Attention: сокращение вычислений в 28 раз при контексте 1M токенов без потери качества MiniMax research
- Moebius: лёгкая модель инпейнтинга на 0,2 млрд параметров сравнялась с FLUX на 11,9 млрд Huazhong University of Science and Technology research
- Orthrus: 7,8-кратное ускорение инференса для Qwen3 за счёт совместного использования KV-кеша AR и диффузии research
- SANA-WM: мировое моделирование 720p длительностью в минуту на одном GPU NVIDIA research
- ThoughtFold: интроспективное обучение предпочтениям сокращает токены рассуждения на 56% без потери точности research
- FastContext: специализированный субагент-исследователь сокращает использование токенов агентами по коду на 60% Microsoft / Shanghai Jiao Tong University research
- Квантизированные модели рассуждения думают, что им нужно думать дольше, — но это не так Meta research
- Готовы ли мы к агент-нативным системам памяти? SJTU сравнивает 12 архитектур research
- О геометрии on-policy дистилляции: парадигма обучения, отличная от SFT и RLVR Hong Kong University of Science and Technology research
- SHERLOC: структурированная диагностическая локализация сокращает потребление токенов при ремонте кода на 36,7% research
- OPRD: дистилляция представлений на политике для пост-обучения LLM research