efficiency — AI Digest

12 мая Qwen-Image-2.0: унифицированная генерация и редактирование изображений в разрешении 2K, первое место на AI Arena Alibaba research
13 мая Baidu выпускает ERNIE 5.1 при 6% отраслевых затрат на предобучение и входит в мировой топ-10 поиска Baidu models-llm
26 июн JetSpec: преодоление потолка масштабирования спекулятивного декодирования с помощью параллельного построения деревьев черновиков Hao AI Lab, UC San Diego research
11 июн Kwai Keye-VL-2.0: открытая мультимодальная MoE-модель 30B с контекстом 256K для длинного видео Kwai research
14 июн MiniMax Sparse Attention: сокращение вычислений в 28 раз при контексте 1M токенов без потери качества MiniMax research
21 июн Moebius: лёгкая модель инпейнтинга на 0,2 млрд параметров сравнялась с FLUX на 11,9 млрд Huazhong University of Science and Technology research
16 мая Orthrus: 7,8-кратное ускорение инференса для Qwen3 за счёт совместного использования KV-кеша AR и диффузии research
16 мая SANA-WM: мировое моделирование 720p длительностью в минуту на одном GPU NVIDIA research
4 июн ThoughtFold: интроспективное обучение предпочтениям сокращает токены рассуждения на 56% без потери точности research
16 июн FastContext: специализированный субагент-исследователь сокращает использование токенов агентами по коду на 60% Microsoft / Shanghai Jiao Tong University research
25 июн Квантизированные модели рассуждения думают, что им нужно думать дольше, — но это не так Meta research
25 июн Готовы ли мы к агент-нативным системам памяти? SJTU сравнивает 12 архитектур research
9 июн О геометрии on-policy дистилляции: парадигма обучения, отличная от SFT и RLVR Hong Kong University of Science and Technology research
24 июн SHERLOC: структурированная диагностическая локализация сокращает потребление токенов при ремонте кода на 36,7% research
26 июн OPRD: дистилляция представлений на политике для пост-обучения LLM research