AI Digest

Галлюцинации в моделях мира предсказуемы и предотвратимы

UC San Diego — Sun, 28 Jun 2026 00:00:00 +0000

Hansen и Wang переосмысляют галлюцинации в визуальных моделях мира как проблему покрытия данных, а не ёмкости модели. Выявлены три режима сбоев: перцептивный, маргинализованный по действиям и расходящийся по сцене. Выведены три внутримодельных сигнала, предсказывающих галлюцинации с корреляцией Спирмена около -0.80. Представлен MMBench2 — датасет из 427 часов и 210 задач с эталонными действиями и вознаграждениями. Обучение с учётом покрытия и дообучение с вознаграждением за любопытство позволяют адаптироваться к новым средам при наличии всего 50 траекторий. 41 голос на HF Daily Papers. Почему это важно: Модели мира лежат в основе предиктивного управления для робототехники. Переосмысление галлюцинаций как проблемы покрытия данных и предоставление прогностических диагностических сигналов — практически применимые результаты с прямым влиянием на развёртывание роботов в новых средах.

ViQ: текстово-выровненные дискретные визуальные представления с поддержкой произвольного разрешения (ECCV 2026)

Tencent Hunyuan — Sun, 28 Jun 2026 00:00:00 +0000

ViQ представляет фреймворк дискретного визуального представления, построенный на визуальной башне SigLIP2 с позиционно-осведомлённой, пошаговой конечной скалярной квантизацией (FSQ). Он преобразует изображения произвольного нативного разрешения в компактные дискретные коды, пригодные как для мультимодальных LLM (для понимания), так и для декодеров (для высококачественной реконструкции). Обучение проходит в два этапа: семантическое предобучение с выравниванием по тексту и дискретизация признаков через проксимальное обучение представлениям. ViQ соответствует непрерывным кодировщикам признаков на мультимодальных бенчмарках, обеспечивая при этом ускорение инференса на 20–70%. Принят на ECCV 2026. Почему это важно: Дискретные визуальные токены являются ключевым узким местом для унифицированных моделей изображение-язык: предыдущие методы жертвовали либо качеством реконструкции ради семантики, либо наоборот. Агностичная к разрешению, текстово-выровненная квантизация ViQ устраняет этот разрыв. 80 голосов на HF Daily Papers.

Горизонт верификации: ни одна функция вознаграждения не работает для агентов программирования при масштабировании

Qwen (Alibaba) — Sun, 28 Jun 2026 00:00:00 +0000

Эта статья команды Qwen оспаривает предположение, что верификация — это простая половина подхода «сгенерировать, затем проверить» для агентов программирования. Изучив четыре конструкции вознаграждений для задач общего программирования, фронтенда и долгосрочных задач, авторы обнаруживают, что ни одна статическая функция вознаграждения не остаётся эффективной по мере роста возможностей политики. Верификация должна со-эволюционировать с генератором и характеризуется по трём осям: масштабируемость, достоверность и робастность. Почему это важно: Взлом вознаграждений и игра на спецификациях — центральные проблемы при обучении способных агентов программирования. Статья предоставляет строгую систему для режимов сбоев верификации на фронтире с прямыми последствиями для разработки RL-пайплайнов в лабораториях.

Tencent Hunyuan публикует в открытый доступ UniRL: унифицированное RL-дообучение для LLM и диффузионных моделей

Tencent / Hunyuan — Sun, 28 Jun 2026 00:00:00 +0000

Команда Tencent Hunyuan выпустила UniRL — фреймворк с открытым исходным кодом для унифицированного RL-дообучения LLM, визуально-языковых моделей и диффузионных/flow-matching-моделей. Он реализует единый цикл «генерация–оценка–преимущество–обновление–синхронизация», применимый к разнородным семействам моделей. В комплекте поставляются два алгоритма: Flow-DPPO для диффузионных/flow-моделей с масками доверительной области на основе точной дивергенции и DRPO для LLM со сглаженным квадратичным регуляризатором, взвешенным по преимуществу. Почему это важно: RL-дообучение стало доминирующим путём к качеству фронтирных моделей. UniRL — один из первых публичных фреймворков, объединяющих этот пайплайн для семейств моделей текста, зрения и генерации изображений в единой кодовой базе.

Runway добавляет Seedance 2.0 Mini в API: более доступная генерация видео в 480p/720p

Runway / ByteDance — Sun, 28 Jun 2026 00:00:00 +0000

26 июня Runway добавил Seedance 2.0 Mini (идентификатор модели: seedance2_mini) в свой API. Модель поддерживает текстовый, изображение и видеовход с управлением ключевыми кадрами, референсными изображениями, референсными видео и генерируемым аудио — тот же набор функций, что и у полного Seedance 2.0, но с более низким потолком разрешения (480p или 720p) и стоимостью 16 кредитов в секунду, примерно вдвое дешевле стандартного уровня. Длительность клипа — от 4 до 15 секунд. Почему это важно: Seedance 2.0 Mini делает ведущую модель генерации видео от ByteDance доступной более широкой аудитории разработчиков по существенно меньшей стоимости. В сочетании с уровнем 4K, добавленным 24 июня, Runway теперь предлагает полный спектр соотношения цены и качества Seedance 2.0 через единый API.

Qwen-Image-Agent: агентное построение контекста для преодоления разрыва в неполноте промптов в T2I

Qwen (Alibaba) — Sun, 28 Jun 2026 00:00:00 +0000

Qwen-Image-Agent решает проблему контекстного разрыва в text-to-image генерации: пользовательские промпты часто неполны, имплицитны или требуют актуальных знаний. Фреймворк итеративно строит полный контекст генерации через два модуля: Context-Aware Planning (выявление недостающего контекста) и Context Grounding (его сбор через рассуждение, веб-поиск, память и обратную связь с пользователем). Система достигает лучших показателей на IA-Bench (45.4%), WISE-Verified (0.9020) и MindBench (0.42). 41 голос на HF Daily Papers. Почему это важно: Большинство исследований T2I фокусируется на качестве модели; этот подход нацелен на разрыв при развёртывании, когда реальные пользователи дают неполные промпты. Агентный цикл построения контекста отражает то, как люди описывают творческие задачи дизайнерам.

OpenAI представляет семейство GPT-5.6: Sol, Terra и Luna — ограниченный выпуск только для одобренных правительством организаций

OpenAI — Sun, 28 Jun 2026 00:00:00 +0000

OpenAI запустила ограниченный предварительный показ GPT-5.6 26 июня, включающий три уровня: Sol (флагман, $5/$30 за 1M токенов, с мультиагентной оркестровкой в «ultra mode»), Terra (сбалансированный, $2.50/$15) и Luna (быстрый, $1/$6). Доступ ограничен примерно 20 предварительно одобренными организациями по запросу правительства США для оценки перед широким выпуском. Sol занимает первое место в Terminal-Bench 2.1 по агентному программированию и ~53.5% в SecureBio Virology Capabilities Test. Пользователи ChatGPT остаются на GPT-5.5; общая доступность ожидается в течение нескольких недель. GPT-4.5 был выведен из ChatGPT в тот же день. Почему это важно: Принудительное правительственное ограничение на предвыпуск GPT-5.6 создаёт прецедент для развёртывания фронтирных моделей: правительство США теперь активно контролирует, кто получает ранний доступ к наиболее мощным системам ИИ. Трёхуровневая структура ценообразования также сигнализирует о том, что ИИ топового уровня по умолчанию становится всё более агентным.

DeepSeek закрывает раунд финансирования на $7.4 млрд и планирует удвоить штат всех отделов

DeepSeek — Sun, 28 Jun 2026 00:00:00 +0000

DeepSeek завершила крупнейший в истории Китая раунд финансирования ИИ-стартапа — около 50 млрд юаней (~$7.4 млрд) — с Tencent и CATL в роли крупнейших частных инвесторов наряду с государственным Национальным инвестиционным фондом ИИ-индустрии. Постинвестиционная оценка составляет около 350–400 млрд юаней (~$52–59 млрд). Bloomberg сообщил 25 июня, что одновременно DeepSeek объявила о планах как минимум удвоить численность каждого отдела, с акцентом на предобучение, данные, агентную инфраструктуру и межотраслевые роли в ИИ. В настоящее время в компании работают около 150–170 человек. Почему это важно: Первое внешнее финансирование DeepSeek сигнализирует о переходе от компактной исследовательской лаборатории к операционно масштабируемой компании. Раунд $7.4 млрд входит в число крупнейших инвестиций в ИИ-стартапы в мире в 2026 году, а государственное со-инвестирование наряду со стратегическими корпоративными партнёрами даёт DeepSeek вычислительный и инфраструктурный рычаг для долгосрочной конкуренции с OpenAI и Anthropic.

DanceOPD: дистилляция генеративных полей на основе онлайн-выборки для унифицированной генерации изображений

ByteDance Seed — Sun, 28 Jun 2026 00:00:00 +0000

DanceOPD рассматривает каждую возможность генерации изображений (text-to-image, локальное редактирование, глобальное редактирование) как поле скоростей и дистиллирует их в унифицированную студенческую модель flow-matching через онлайн-выборку. Для каждого обучающего примера студент направляется к одному замороженному полю возможностей, запрашивает его в состоянии малого шума при онлайн-выборке и согласовывает результирующую скорость с помощью локального MSE-лосса. Это позволяет избежать интерференции возможностей. Показатели редактирования улучшаются до 21.9% в отдельных категориях, а метрики text-to-image сохраняются или улучшаются до 2.0%. 64 голоса на HF Daily Papers. Почему это важно: Объединение разнообразных генеративных возможностей без катастрофического забывания — устойчивая проблема в генерации изображений. Подход дистилляции на основе онлайн-выборки в DanceOPD архитектурно чист и демонстрирует сильные эмпирические результаты по всем трём измерениям возможностей.

Claude Code v2.1.195: исправление матчера хуков для MCP-серверов с дефисами, управление мышью в полноэкранном режиме

Anthropic — Sun, 28 Jun 2026 00:00:00 +0000

Anthropic выпустила Claude Code v2.1.195 26 июня. Исправлено: матчеры хуков с дефисными идентификаторами (например, mcp__brave-search) теперь используют точное совпадение вместо совпадения по подстроке — ошибка затрагивала все идентификаторы MCP-серверов, содержащие дефисы. Добавлена переменная CLAUDE_CODE_DISABLE_MOUSE_CLICKS для отключения кликов/перетаскивания/наведения мыши в полноэкранном режиме при сохранении прокрутки. Исправлена голосовая диктовка на macOS для длинных сессий и языков без пробелов между словами (японский, китайский, тайский). Почему это важно: Ошибка матчера хуков затрагивала значительную часть реальных конфигураций MCP, поскольку дефисные имена серверов являются доминирующим соглашением. Исправление разблокирует производственные пайплайны, вынужденные обходить некорректную маршрутизацию хуков.

Правительство США частично восстановило доступ к Anthropic Mythos 5 примерно для 100 организаций критической инфраструктуры

Anthropic — Sun, 28 Jun 2026 00:00:00 +0000

27 июня Министерство торговли США уведомило Anthropic о том, что Claude Mythos 5 может быть повторно развёрнут примерно для 100 американских организаций, эксплуатирующих и защищающих критическую инфраструктуру — энергетику, здравоохранение, финансовые услуги и телекоммуникации. Claude Fable 5 (публичная модель) остаётся под запретом. Anthropic продолжает переговоры о расширении доступа к Mythos 5 и возврате Fable 5. Первоначальное предписание об экспортном контроле было введено 12 июня после того, как исследователи Amazon выявили векторы взлома защиты в системе кибербезопасности Fable 5. Почему это важно: Это первая частичная отмена экспортного контроля правительства США, применённого к коммерческой модели ИИ, формирующая отраслевую систему доверенного доступа. Фронтирные модели с возможностями автономного обнаружения уязвимостей теперь подпадают под режимы экспортного контроля, ранее применявшиеся к вооружениям и полупроводниковым технологиям.

Открывается AI Engineer World's Fair 2026; Anthropic анонсирует MCP Registry API

Sun, 28 Jun 2026 00:00:00 +0000

AI Engineer World's Fair 2026 открылась 29 июня в Moscone Center, Сан-Франциско: более 6000 инженеров, 300 докладчиков и 29 секций. Anthropic объявила официальный MCP Registry API на мероприятии — канонический каталог MCP-серверов, который инструменты разработки вроде Claude Code, Codex и OpenCode могут использовать программно, формализуя MCP из протокола в производственную инфраструктуру. Почему это важно: MCP Registry API даёт разработчикам стандартизированный способ обнаруживать и интегрировать MCP-серверы во всех основных агентах разработки. Конференция является крупнейшим собранием практиков ИИ-инженерии в 2026 году.

Яндекс выпускает масштабное обновление Алисы: межсессионная память, персонализация и режим доступности в реальном времени

Yandex — Fri, 26 Jun 2026 00:00:00 +0000

25 июня на фестивале YoungCon Яндекс анонсировал значительное обновление Алисы, включающее обновление основной LLM, поисковой модели и мультимодальной VLM. Новые возможности: постоянная межсессионная память, адаптивный стиль общения, отражающий тон и формальность пользователя, улучшенное понимание изображений, диаграмм и таблиц, а также режим Live для слабовидящих пользователей, описывающий окружающую обстановку через камеру в реальном времени с помощью VLM Алисы. Почему это важно: Широкий скачок возможностей наиболее распространённого потребительского AI-ассистента в России — движение к модели постоянного персонализированного агента с функциями доступности, расширяющими значимый доступ к AI для слепых и слабовидящих пользователей.

Suno запускает инкубатор Spark для независимых артистов с грантами и наставничеством

Suno — Fri, 26 Jun 2026 00:00:00 +0000

25 июня Suno анонсировала Spark — инкубаторную программу, предлагающую независимым артистам гранты, маркетинговое финансирование, приглашения на лагеря по написанию песен и наставничество. Участники сохраняют полные творческие и коммерческие права на работы, созданные с помощью платформы. Программа следует за раундом привлечения $400 млн при оценке $5.4 млрд в июне 2026 года. Почему это важно: Spark — наиболее прямая попытка Suno позиционировать себя как партнёра отрасли, а не разрушителя, с финансовыми обязательствами перед артистами в момент, когда Universal Music Group и Sony всё ещё судятся с компанией.

Runway выпускает Agent 2.0 для автоматизации маркетинговых кампаний

Runway — Fri, 26 Jun 2026 00:00:00 +0000

25 июня Runway выпустила Agent 2.0 для всех тарифов — агентный инструмент, создающий целые маркетинговые кампании, анализирующий данные об эффективности и масштабирующий креативные материалы на разные платформы, форматы и рынки в рамках единого диалогового рабочего процесса. Продукт базируется на видеомоделях Aleph 2.0 и Gen-4.5, выпущенных ранее в 2026 году. Почему это важно: Agent 2.0 знаменует переход Runway от инструмента генерации видео к полноценной платформе маркетинговых производств, ориентированной на креативные агентства и бренд-команды с опорой на лидерство компании в видеогенерации.

Qwen-AgentWorld: языковые мировые модели для универсальных агентов на 35B и 397B параметров

Qwen Team, Alibaba — Fri, 26 Jun 2026 00:00:00 +0000

Qwen-AgentWorld представляет две фундаментальные мировые модели (35B и 397B параметров), обученные на более чем 10 миллионах траекторий взаимодействия в семи областях с использованием трёхэтапного пайплайна: инжекция возможностей, активация предсказания следующего состояния и RL-уточнение. Система выступает одновременно масштабируемым симулятором среды для RL-обучения и этапом прогрева для последующих агентных задач; вместе с ней представлен новый бенчмарк AgentWorldBench. Почему это важно: Языковые мировые модели, достоверно симулирующие динамику среды, могут снизить стоимость сбора RL-данных и позволить агентам отрабатывать навыки в симуляции до реального развёртывания. На 397B параметров это крупнейшая специализированная мировая модель для агентов на сегодняшний день.

OPRD: дистилляция представлений на политике для пост-обучения LLM

Fri, 26 Jun 2026 00:00:00 +0000

OPRD расширяет дистилляцию на политике из пространства выходов (логитов) в пространство скрытых представлений, согласовывая представления студента и учителя на выбранных слоях на совместных выборках. Межархитектурное расширение (OPRD-Bridge) переносит знания между моделями с разными архитектурами и токенизаторами через низкоранговую структуру представлений. Метод обеспечивает ускорение обучения в 1.44× и снижение памяти до 54% при существенном сокращении разрыва в производительности на математических бенчмарках, где методы на основе логитов достигают плато. Почему это важно: Дистилляция на политике — стандартный компонент пайплайнов пост-обучения для фронтирных моделей. OPRD исправляет ключевой режим отказа — высокоэнтропийные распределения токенов, делающие градиенты в пространстве выходов неинформативными, — и открывает дистилляцию между несовместимыми семействами моделей.

OpenCode v1.17.11: снимки сессий с возможностью отката, переключение вкладок в стиле Chrome

SST — Fri, 26 Jun 2026 00:00:00 +0000

OpenCode v1.17.11 вводит снимки сессий с элементами управления откатом, позволяющие откатить сессию к любому предыдущему сообщению вместе со всеми связанными изменениями файлов. В настольном интерфейсе появилось переключение вкладок в стиле Chrome (mod+1–9) и перетаскиваемые вкладки. В предыдущем релизе v1.17.10 (24 июня) добавлены инструкции MCP-сервера, инжектируемые в контекст сессии, инструменты листинга и чтения шаблонов ресурсов MCP, а также режим CLI --mini. Почему это важно: Снимки сессий с откатом файлов — значимая функция безопасности для агентных рабочих процессов программирования, снижающая стоимость исследовательских или рискованных запусков агентов.

OpenAI делает Codex Remote общедоступным для всех тарифов и сообщает о 97.9% внутреннем уровне использования

OpenAI — Fri, 26 Jun 2026 00:00:00 +0000

OpenAI сделала Codex Remote общедоступным для всех тарифов ChatGPT: пользователи могут начинать или продолжать работу с кодом на подключённом Mac или Windows-компьютере с мобильного устройства через аутентификацию по QR-коду. Одновременно OpenAI опубликовала данные об использовании: 97.9% сотрудников компании теперь используют Codex — по сравнению с ~40% в августе 2025 года, — включая нетехнические подразделения: юридический отдел и финансы. Почему это важно: Перевод Codex Remote из предварительного доступа в GA для всех тарифов существенно расширяет круг пользователей агентных помощников по программированию; данные о внутреннем использовании свидетельствуют о том, что OpenAI считает Codex готовым к широкому корпоративному применению за пределами чисто инженерных задач.

Mistral выпускает OCR 4: SOTA-модель для работы с документами с возможностью локального развёртывания

Mistral AI — Fri, 26 Jun 2026 00:00:00 +0000

Mistral выпустила OCR 4 — модель для интеллектуальной обработки документов с поддержкой 170 языков, возвращающую структурированный вывод с ограничивающими рамками, классификацией блоков по типам (заголовки, таблицы, формулы, подписи) и инлайн-оценками уверенности. Модель занимает первое место на OlmOCRBench с результатом 85.20 и 72% среднего процента побед в пользовательских исследованиях, развёртывается как единый контейнер для on-premises-использования. Стоимость — $4 за 1000 страниц через API; доступна на Mistral API, Amazon SageMaker и Microsoft Foundry. Почему это важно: Сочетание лучшего в классе качества извлечения данных с возможностью самостоятельного хостинга в едином контейнере устраняет ключевой барьер для корпоративных клиентов — необходимость передавать конфиденциальные документы в сторонние облачные API, — укрепляя позиции Mistral на рынке корпоративной обработки документов.

Плотного надзора недостаточно: слепое пятно считывания в зациклённых языковых моделях

Fri, 26 Jun 2026 00:00:00 +0000

Статья диагностирует сбой обучения в зациклённых (рекуррентных) архитектурах трансформеров: инвариантные к масштабу считывания, такие как RMSNorm и LayerNorm, создают «слепое пятно», при котором пошаговый надзор с cross-entropy оставляет нормы скрытых состояний неконтролируемыми — они вырастают до тысяч, несмотря на плотный надзор. Авторы предлагают два архитектурных решения — сделать масштаб видимым для функции потерь или убрать его из рекуррентного цикла — и демонстрируют, что варианты с контролем масштаба достигают лучшей перплексии при совпадающей глубине инференса на моделях 44M и 129M параметров. Почему это важно: Зациклённые/рекуррентные трансформеры — перспективное направление для вычислительно-эффективного инференса (повторное использование весов на разных глубинах), однако нестабильность обучения ограничивала их применение. Работа даёт конкретный диагноз и простое правило проектирования, которое может разблокировать практическую разработку этого класса архитектур.

JetSpec: преодоление потолка масштабирования спекулятивного декодирования с помощью параллельного построения деревьев черновиков

Hao AI Lab, UC San Diego — Fri, 26 Jun 2026 00:00:00 +0000

JetSpec вводит каузальную параллельную голову для черновых токенов, согласовывающую оценки дерева кандидатов с авторегрессионной факторизацией целевой модели и решающую давний компромисс между авторегрессионными и двунаправленными генераторами черновиков. Достигается ускорение до 9.64× на MATH-500 и 4.58× на разговорных задачах с использованием моделей Qwen3 на GPU H100/B200, с интеграцией vLLM и опубликованными черновыми моделями на HuggingFace. Почему это важно: Спекулятивное декодирование зашло в тупик, поскольку увеличение бюджета черновиков не давало надёжно более длинных принимаемых последовательностей. JetSpec преодолевает этот потолок с помощью обоснованной обучающей цели, обеспечивая пропускную способность >1000 токенов в секунду — практически значимо для снижения стоимости инференса в любом масштабе.

Google DeepMind инвестирует $75 млн в A24 и формирует первое AI-исследовательское партнёрство с киностудией

Google DeepMind — Fri, 26 Jun 2026 00:00:00 +0000

22 июня 2026 года Google инвестировала $75 млн в A24 — первая доля в капитале киностудии — в рамках многолетнего исследовательского партнёрства по совместной разработке AI-инструментов для кинопроизводства с использованием Veo. Исследователи DeepMind будут встроены в активные производства A24 для создания новых творческих рабочих процессов и техник. Google не получает доступа к существующей фильмотеке A24. Почему это важно: Это первый случай, когда крупная AI-исследовательская лаборатория приобрела долю в кинопроизводственной компании для формирования своих моделей видеогенерации через профессиональную творческую обратную связь, создавая прецедент для того, как AI-лаборатории могут добиваться принятия в творческих индустриях.

GLM-5.2: MoE-модель для программирования от Zhipu AI на 744B параметров под лицензией MIT вызывает опасения в сфере кибербезопасности

Zhipu AI / Z.ai — Fri, 26 Jun 2026 00:00:00 +0000

Zhipu AI выпустила веса GLM-5.2 — MoE-модели на 744B параметров с 40B активными параметрами и контекстом 1M токенов — на HuggingFace около 17 июня; 25 июня Axios опубликовал материал о том, что исследователи в области безопасности обнаружили: модель сопоставима с американскими фронтирными моделями по бенчмаркам кибербезопасности. GLM-5.2 набирает 62.1 на SWE-bench Pro, занимает второе место на Code Arena и стоит около $1.40 за миллион входных токенов против $5 у GPT-5.5. Почему это важно: Сочетание возможностей фронтирного уровня в программировании, MIT-лицензии с неограниченным коммерческим использованием и стоимости примерно в шесть раз ниже, чем у GPT-5.5, делает GLM-5.2 наиболее экономически деструктивной открытой моделью для программирования; сообщество безопасности оценивает её двойное применение.

Детерминированный горизонт: когда расширенное рассуждение даёт сбой и необходима делегация инструментам

Fri, 26 Jun 2026 00:00:00 +0000

Принятая на ICML 2026 статья формулирует теорему об узком месте внимания, ограничивающую мощность отслеживания состояний у decoder-only трансформеров, и выявляет «детерминированный горизонт» примерно в 19–31 шаг, за которым рассуждение в цепочке мысли деградирует сверхэкспоненциально. Эмпирическая проверка на 12 моделях и 8 предметных областях — включая SWE-Bench и WebArena — показывает, что гибридные нейросетево-инструментальные системы достигают 86–94% точности против 24–42% у чистой цепочки мысли. Почему это важно: Статья переносит нарратив о сбоях рассуждения с проблемы обучающих данных на архитектурное ограничение мощности, задавая обоснованные пороги, при достижении которых агентным системам следует делегировать задачи внешним инструментам, а не продолжать рассуждать.

DeepReinforce выпускает Ornith-1.0: открытые модели для программирования, самостоятельно обучающие свои RL-каркасы

DeepReinforce — Fri, 26 Jun 2026 00:00:00 +0000

25 июня DeepReinforce выпустила Ornith-1.0 — семейство из четырёх агентных моделей для программирования под лицензией MIT (9B dense, 31B dense, 35B MoE, 397B MoE) на базе Gemma 4 и Qwen 3.5. Вместо разработанных людьми RL-каркасов каждая модель обучается генерировать собственные специализированные обёртки в процессе RL-обучения, с передачей вознаграждений как на этап генерации каркаса, так и на этап генерации решения. Флагманская 397B-модель достигает 77.5 на Terminal-Bench 2.1 и 82.4 на SWE-Bench Verified, что сопоставимо с Claude Opus 4.7. Почему это важно: Самогенерируемые RL-каркасы — значимое отклонение от обучения с фиксированными обёртками, и это первое семейство открытых моделей, сопоставимых с последней фронтирной моделью Anthropic по агентным бенчмаркам программирования при MIT-лицензии.

OpenAI выпускает codex-zsh v0.1.0: версионированный патченый бинарник zsh для песочницы Codex

OpenAI — Fri, 26 Jun 2026 00:00:00 +0000

OpenAI опубликовала codex-zsh v0.1.0 как самостоятельный версионированный артефакт — минимально патченая сборка zsh с поддержкой EXEC_WRAPPER через патч к Src/exec.c, позволяющая протоколу эскалации shell в Codex перехватывать вызовы execve и направлять каждую команду через политику песочницы Run/Escalate/Deny. Бинарники поставляются для macOS (aarch64 и x86_64) и Linux (musl, оба архитектуры). Почему это важно: Публикация в виде отдельного версионированного артефакта отделяет сопровождение патча zsh от цикла выпуска основного Codex CLI и делает доверенную границу песочницы доступной для аудита.

OpenAI Codex CLI v0.142.2: поиск инструментов MCP по умолчанию, поддержка прокси в macOS, защита PowerShell

OpenAI — Fri, 26 Jun 2026 00:00:00 +0000

Codex CLI v0.142.2 делает поиск инструментов MCP поведением по умолчанию при поддержке со стороны сервера, добавляет поддержку системного прокси macOS и PAC/WPAD, а также требует явного подтверждения для команд PowerShell, содержащих исполняемые AST-регионы, которые классификатор безопасности не может проверить. Также включены логотипы плагинов в тёмной теме, расширенные метаданные UI буферизации безопасности и понятные инструкции по восстановлению учётных данных Bedrock. Почему это важно: Поиск инструментов MCP по умолчанию повышает удобство работы с большими каталогами инструментов; принудительная проверка AST PowerShell закрывает значимую поверхность для побега из песочницы.

Claude Code v2.1.193: расширение классификатора shell, логирование ответов через OTel, автодополнение путей в реальном времени

Anthropic — Fri, 26 Jun 2026 00:00:00 +0000

Claude Code v2.1.193 добавляет новую настройку autoMode.classifyAllShell, направляющую все команды Bash/PowerShell через классификатор безопасности автоматического режима; опциональное событие логирования claude_code.assistant_response через OpenTelemetry; автодополнение путей к файлам в реальном времени в режиме bash; уведомления об аутентификации MCP при запуске. Исправлена надёжность фоновых агентов: устранено создание фантомных подагентов, устаревание UI после входа и повторные запросы при автообновлении. Почему это важно: Расширение классификатора shell и логирование ответов через OTel важны для корпоративных развёртываний, требующих журналов аудита и детального контроля разрешений shell; исправления фоновых агентов устраняют давние проблемы надёжности по мере роста использования мультиагентных рабочих процессов.

ByteDance анонсирует Seedream 5.0 Pro: генерация изображений со встроенным онлайн-поиском и глубоким рассуждением

ByteDance — Fri, 26 Jun 2026 00:00:00 +0000

Анонсированная на Volcano Engine FORCE 23 июня, Seedream 5.0 Pro предлагает интегрированный онлайн-поиск для генерации изображений, актуальных трендам и текущим событиям, глубокое понимание подсказок, поддержку до 10 референсных изображений и вывод в разрешении 2K+. Ориентирована на коммерческое производство с возможностями контроля компоновки и точечного редактирования. Почему это важно: Интеграция живого веб-поиска в генерацию изображений — новый архитектурный подход, позволяющий модели создавать контекстуально актуальные изображения без отдельных этапов извлечения, — дифференциатор по сравнению с Flux.2, Midjourney v8.1 и Ideogram 4.0.

ByteDance представляет Seedance 2.5: нативная генерация 30-секундного 4K-видео с 50 мультимодальными входами

ByteDance — Fri, 26 Jun 2026 00:00:00 +0000

ByteDance анонсировала Seedance 2.5 на конференции Volcano Engine FORCE 23 июня — модель генерирует 30-секундные клипы нативно в 4K с глубиной цвета 10 бит. Модель принимает до 50 одновременных мультимодальных входов (изображения, аудио, 3D white-модели, стилевые референсы) и обрабатывает аудио в том же латентном пространстве, что и видео, для нативной синхронизации звука. Корпоративная бета уже доступна; публичный запуск запланирован на начало июля. Почему это важно: Seedance 2.5 более чем вчетверо увеличивает ёмкость входных референсов по сравнению с ближайшим конкурентом, а нативная генерация 30-секундных роликов без склейки устраняет ключевое ограничение современных видеомоделей — повышая планку для длинноформатной AI-видеогенерации.

ByteDance запускает Seed-Audio 1.0: унифицированная генерация речи, музыки и фоновых звуков

ByteDance — Fri, 26 Jun 2026 00:00:00 +0000

Анонсированная вместе с Seedance 2.5 на конференции Volcano Engine FORCE 23 июня, Seed-Audio 1.0 генерирует многоперсонажные диалоги с различными голосами, фоновую музыку, звуковые эффекты и акустическую атмосферу за единый сквозной проход длиной до 2 минут. Принимает текстовые подсказки и референсное аудио для стилевого соответствия и клонирования голоса; доступна через API ByteDance Volcano Ark, интегрированный в CapCut, Jimeng и Fanqie. Почему это важно: Seed-Audio 1.0 позиционирует ByteDance как полностековый генеративный медиапровайдер, объединяя голос, музыку и эффекты в одной модели — прямой конкурент мультипродуктовому набору ElevenLabs и снижение потребности в отдельных специализированных инструментах в контентных пайплайнах.

ByteDance представляет флагманскую LLM Doubao-Seed-2.1 Pro на конференции FORCE

ByteDance / Doubao — Fri, 26 Jun 2026 00:00:00 +0000

ByteDance представила Doubao-Seed-2.1 Pro на конференции Volcano Engine FORCE 2026 23 июня — флагманскую MoE LLM, ориентированную на корпоративное программирование, длинноцепочечные агентные задачи и мультимодальное понимание с контекстными окнами до миллиона токенов. Модель демонстрирует конкурентоспособные показатели в сравнении с GPT-5.5 и Gemini 3.1 Pro, цена — 6 юаней за миллион входных токенов. На том же мероприятии ByteDance анонсировала Seedance 2.5 (генерация видео) и Seedream 5.0 Pro (генерация изображений), завершив формирование полного стека медиа-AI. Почему это важно: Doubao теперь обслуживает 180 триллионов токенов в день — рост в 1500 раз с момента запуска, — что делает этот продукт наиболее широко развёрнутым китайским AI-продуктом; выпуск 2.1 Pro означает ставку ByteDance на монетизацию корпоративного сегмента.

Модель Mythos от Anthropic обнаружила уязвимости в засекреченных системах правительства США за несколько часов

Anthropic — Fri, 26 Jun 2026 00:00:00 +0000

Высокопоставленный американский чиновник раскрыл, что модель Mythos от Anthropic выявила уязвимости в засекреченных компьютерных системах правительства США за несколько часов в ходе тестирования в рамках проекта Glasswing. Сенатор Марк Уорнер сослался на эти результаты на слушаниях в Банковском комитете Сената, заявив, что модель «взломала почти все наши засекреченные системы — не за недели, а за часы». Это откровение стало одним из оснований для правительственной директивы, ограничивающей доступ иностранных граждан к моделям Fable 5 и Mythos 5 от Anthropic. Почему это важно: Передовые AI-модели перешли черту, за которой способны автономно находить уязвимости в защищённой засекреченной инфраструктуре, — это меняет подход правительств к политике в области AI-безопасности и экспортному контролю.

Wan-Streamer v0.1: сквозная интерактивная фундаментальная модель реального времени с задержкой менее 550 мс

Wan-AI — Thu, 25 Jun 2026 00:00:00 +0000

Унифицированная фундаментальная модель для мультимодального взаимодействия в реальном времени, обрабатывающая текст, аудио и видео в едином Transformer с block-causal attention. В отличие от пайплайновых систем, объединяющих отдельные модули ASR, рассуждения и TTS, Wan-Streamer совместно обучает восприятие, рассуждение и генерацию — достигая ~200 мс задержки на стороне модели и 550 мс общей задержки взаимодействия, с единицами стриминга от 160 мс при 25 кадрах в секунду. На данный момент разрешение 192p — как proof of concept. Почему это важно: Интерактивный ИИ реального времени, в котором модель видит, слышит и отвечает звуком и видео за полсекунды, был сложной системной задачей. Wan-Streamer демонстрирует, что сквозное совместное обучение в едином Transformer способно достичь целевых показателей задержки, ранее требовавших специализированного пайплайнового склеивания.

Квантизированные модели рассуждения думают, что им нужно думать дольше, — но это не так

Meta — Thu, 25 Jun 2026 00:00:00 +0000

Эмпирическое исследование, показывающее, что постобучающая квантизация моделей рассуждения парадоксально увеличивает длину цепочки рассуждений при снижении точности. В до 52% случаев ошибок квантизированные модели находят верный промежуточный ответ, но затем не выбирают его — поскольку позиции токенов с высокой энтропией вынуждают их избыточно сэмплировать маркеры «избыточного мышления» вроде «wait», «but», «alternatively». Не требующий обучения штраф logit на эти маркеры сокращает длину рассуждения на 12–23%, сохраняя или улучшая точность на 5 моделях (1,5B–32B), 3 методах квантизации и 5 бенчмарках. Почему это важно: Квантизация является основной техникой для дешёвого деплоя крупных моделей рассуждения, однако данная работа выявляет ранее не диагностированный режим сбоя, объясняющий значительную часть потерь точности. Исправление без обучения применимо немедленно к любому развёртыванию квантизированной модели рассуждения, обеспечивая существенное снижение стоимости инференса без дообучения.

Qualcomm приобретает Modular за $3,92 млрд для противостояния привязке к CUDA

Qualcomm — Thu, 25 Jun 2026 00:00:00 +0000

24 июня на Investor Day Qualcomm объявила о поглощении Modular — стартапа, стоящего за языком программирования Mojo и инференс-движком MAX, — в сделке полностью на акциях стоимостью около $3,92 млрд. Закрытие сделки ожидается во второй половине 2026 года при условии одобрения регуляторами. Стек Modular позволяет запускать модели ИИ на Nvidia, AMD, Intel и Apple Silicon без аппаратно-специфических правок, напрямую устраняя привязку разработчиков, которая делает CUDA незаменимой. Почему это важно: Если Qualcomm сможет вывести кросс-аппаратную абстракцию Modular в мейнстрим, это подорвёт один из самых глубоких рвов Nvidia. Для ML-инженеров зрелый аппаратно-независимый стек инференса существенно расширит возможности деплоя и снизит зависимость от вендоров GPU. Цена в $3,92 млрд демонстрирует корпоративную убеждённость в экосистеме Mojo / MAX.

OpenCode v1.17.10: инструкции MCP-сервера в контексте, режим CLI --mini

SST — Thu, 25 Jun 2026 00:00:00 +0000

OpenCode v1.17.10 (24 июня) включает инструкции MCP-сервера, интегрированные непосредственно в контекст сессии, новый режим CLI --mini для облегчённого запуска, инструменты для перечисления и чтения шаблонов ресурсов MCP, поддержку интеграции провайдеров под управлением opencode и исправление OAuth-коллбэков MCP для локальной аутентификации. Почему это важно: OpenCode — один из наиболее активно звёздных open-source агентов для написания кода (160K+ звёзд на GitHub). Инструменты шаблонов ресурсов MCP и интеграция управляемых провайдеров расширяют возможности агента для нативной работы с внешними источниками данных.

OpenAI и Broadcom представили Jalapeño — первый собственный чип OpenAI для инференса

OpenAI — Thu, 25 Jun 2026 00:00:00 +0000

24 июня OpenAI и Broadcom совместно анонсировали Jalapeño — первый ASIC OpenAI, разработанный исключительно для инференса LLM. Чип создавался от начального дизайна до tape-out девять месяцев; часть процесса проектирования была ускорена с помощью ИИ. OpenAI заявляет о примерно 50% снижении стоимости токена по сравнению с GPU текущего поколения. Прототипные развёртывания запланированы на конец 2026 года, массовое производство — на 2027–2028 годы. Чип не будет продаваться внешним заказчикам. Почему это важно: Первый шаг OpenAI к вертикальной аппаратной интеграции снижает зависимость от Nvidia и уменьшает стоимость токена при обслуживании ChatGPT и API-продуктов в масштабе. Девятимесячный цикл разработки — частично обеспеченный самим ИИ — сигнализирует об ускорении петли разработки аппаратного обеспечения. Это ставит OpenAI в один ряд с Google (TPU), Amazon (Trainium) и Microsoft (Maia) в клубе производителей кастомного кремния.

Google распространяет аудио Veo 3.1 на все инструменты редактирования Flow, добавляет Insert и Remove

Google DeepMind — Thu, 25 Jun 2026 00:00:00 +0000

22 июня Google распространила генерацию аудио Veo 3.1 на существующие функции создания Flow — Ingredients to Video, Frames to Video и Extend — которые ранее выдавали видео без звука. Также добавлены два новых инструмента точного редактирования: Insert (добавление элементов в сцену с подбором освещения) и Remove (удаление объектов с автоматическим восстановлением фона). Доступно в Gemini API, Vertex AI, приложении Gemini и Flow. Почему это важно: Распространение нативного аудио на рабочие процессы, основанные на референсных изображениях и расширении клипов, закрывает важный пробел для профессиональных пользователей, создающих видео из существующих материалов. Инструменты Insert и Remove продвигают Veo к полноценному постпродакшн-пайплайну.

GitHub Copilot убирает ручной выбор модели для Free и Student планов

GitHub / Microsoft — Thu, 25 Jun 2026 00:00:00 +0000

С 24 июня GitHub сделал автоматический выбор модели Copilot выбором по умолчанию и единственным вариантом для пользователей планов Free и Student. Система Auto динамически направляет каждый запрос к наиболее подходящей доступной модели из семейств OpenAI, Anthropic и Google с учётом ограничений плана. GitHub также снял метку (Preview) со всех моделей, выпущенных Microsoft. Почему это важно: Удаление ручного выбора модели для планов нижнего уровня упрощает UX, но ограничивает контроль пользователя — следуя тренду, при котором провайдеры абстрагируют выбор модели для оптимизации затрат. Пользователи Free и Student больше не могут зафиксироваться на конкретной модели.

Gemini 3.5 Flash получает встроенный инструмент управления компьютером

Google DeepMind — Thu, 25 Jun 2026 00:00:00 +0000

24 июня Google объявила, что computer use теперь является нативным встроенным инструментом в Gemini 3.5 Flash, доступным через Gemini API и Gemini Enterprise Agent Platform. Прежде доступная только в виде отдельной специализированной модели, возможность теперь позволяет агентам видеть, кликать, печатать и прокручивать интерфейсы в браузере, на мобильных и десктопных средах. Целевое adversarial-обучение снижает риски prompt injection. Улучшены результаты на бенчмарке OSWorld по сравнению с предыдущими реализациями. Почему это важно: Интеграция computer use непосредственно в основную модель Flash снижает порог для создания агентных рабочих процессов над реальными UI. В сочетании со скоростным и экономичным профилем Flash это делает автоматизацию на основе реальных интерфейсов доступнее для корпоративных развёртываний — и напрямую конкурирует с предложением Anthropic по computer use.

DomainShuttle: синтез видео по субъекту из текста для внутри- и междоменных сценариев

Thu, 25 Jun 2026 00:00:00 +0000

Система text-to-video для субъектно-управляемого синтеза в двух сценариях: внутридоменном (точное сохранение признаков референсного субъекта) и межсценном (гибкая вариация при сохранении идентичности). Вводятся Domain-MoT (domain-aware adaptive layer normalization), Video-Reference DualRoPE (отдельное ротационное позиционное кодирование для референсных и видеотокенов) и Cross-Pair Consistent Loss. Третье место на HF Daily Papers за 25 июня (34 голоса). Почему это важно: Существующие методы субъектно-управляемого видео вынуждены выбирать между точностью и редактируемостью — DomainShuttle предлагает архитектурные компоненты, разделяющие эти цели и позволяющие одновременно точно сохранять субъект и свободно переносить его в другой домен.

OpenAI Codex CLI v0.142.1: опциональная поддержка системного прокси Windows

OpenAI — Thu, 25 Jun 2026 00:00:00 +0000

Codex CLI v0.142.1 (25 июня, стабильный) добавляет опциональную поддержку системного прокси Windows, включая PAC, WPAD, статические прокси и правила обхода. Серия 0.143.0-alpha продолжилась 9+ предрелизными сборками с 23 по 25 июня, что указывает на подготовку более крупного обновления функциональности. Почему это важно: Корпоративные развёртывания Windows за корпоративными прокси были блокером для принятия Codex CLI. Активная серия alpha сигнализирует об интенсивной текущей разработке.

Claude Code v2.1.191: команда /rewind, снижение CPU на 37%, логика повтора MCP

Anthropic — Thu, 25 Jun 2026 00:00:00 +0000

Claude Code v2.1.191 (24 июня) добавляет /rewind для возобновления разговоров до выполнения /clear, снижает нагрузку на CPU при стриминге примерно на 37% за счёт объединения обновлений текста, добавляет логику повтора MCP-сервера при временных сетевых ошибках и уменьшает рост потребления памяти в долгих сессиях. В предыдущем выпуске v2.1.187 (23 июня) были добавлены sandbox.credentials для блокировки чтения секретных файлов изолированными командами и настраиваемые организацией ограничения модели в выборе модели. Почему это важно: Два быстрых релиза за 36 часов демонстрируют активный темп разработки. Функция /rewind устраняет распространённую проблему потери состояния разговора; улучшения CPU и памяти важны для долгих агентных сессий; повышение надёжности MCP актуально для производственных пайплайнов с использованием инструментов.

Beyond NL2Code: структурированный обзор мультимодального интеллекта в написании кода

Thu, 25 Jun 2026 00:00:00 +0000

Всесторонний обзор систем кодового интеллекта, выходящих за рамки только текстовых входных данных: охватывает обработку LLM визуальных артефактов — скриншотов, графиков, векторных рисунков, интерактивных состояний UI — для генерации исполняемого кода. В работе рассматриваются четыре области: графические пользовательские интерфейсы, научная визуализация, структурированная графика и новые агентные фреймворки; авторы утверждают, что дальнейший прогресс требует многосигнальной валидации и прозрачности агентов. Почему это важно: Возглавил HuggingFace Daily Papers за 25 июня с 262 голосами — самая высоко оцененная работа дня. По мере того как ИИ-помощники в написании кода всё чаще сталкиваются с визуальными спецификациями и макетами UI, данный обзор формулирует открытые задачи в области визуально обоснованного программирования и задаёт исследовательскую повестку для следующего поколения агентов для написания кода.

Anthropic обвиняет Alibaba в крупнейшей известной атаке дистилляции Claude: 28,8 млн диалогов

Anthropic — Thu, 25 Jun 2026 00:00:00 +0000

В письме в Комитет Сената США по банковскому делу, обнародованном 24 июня, Anthropic обвинила лабораторию Qwen компании Alibaba в проведении крупнейшей известной атаки дистилляции против Claude: 28,8 миллиона обменов диалогами через почти 25 000 мошеннических аккаунтов в период с 22 апреля по 5 июня 2026 года. Кампания была направлена на возможности Claude в области разработки программного обеспечения и агентного рассуждения. Ранее Anthropic выявила аналогичные кампании, приписываемые DeepSeek (150 тыс. взаимодействий), Moonshot AI (3,4 млн) и MiniMax (13 млн). Почему это важно: Дистилляция моделей в таком масштабе — использование выходных данных фронтирной модели для обучения более дешёвой конкурирующей модели — становится всё более серьёзной угрозой для ИС AI-лабораторий. Обвинение в адрес Alibaba представляет собой значительную эскалацию. Раскрытие информации Сенату может повлиять на экспортный контроль и политику доступа к API в контексте продолжающейся конкуренции США и Китая в сфере ИИ.

Готовы ли мы к агент-нативным системам памяти? SJTU сравнивает 12 архитектур

Thu, 25 Jun 2026 00:00:00 +0000

Систематическая оценка памяти агентов ИИ через призму управления данными от SJTU и Tsinghua. В работе предлагается фреймворк, декомпозирующий память агента на четыре модуля — представление и хранение, извлечение, поиск и маршрутизация, обслуживание — и производится бенчмаркинг 12 существующих систем памяти. Ключевой вывод: ни одна архитектура не показывает оптимальных результатов по всем нагрузкам; локализованное обслуживание более экономично, чем полная реорганизация. Почему это важно: По мере распространения агентного ИИ память всё чаще становится узким местом при развёртывании. Это первый систематический бенчмарк 12 архитектур памяти с использованием единого фреймворка, дающий практикам обоснованную основу для выбора архитектуры. Второй по рейтингу на HF Daily Papers за 25 июня (40 голосов).

Беспилотный грузовик Яндекса совершил первый полностью автономный рейс Москва–Санкт-Петербург протяжённостью 700 км

Yandex — Wed, 24 Jun 2026 00:00:00 +0000

23 июня 2026 года автономный грузовик Яндекса «Роботрак» преодолел 700 км без водителя по трассе М-11 от Москвы до Санкт-Петербурга — первый подобный случай в России. AI-система самостоятельно выполняла обгоны, проезжала через зоны дорожных работ и оплачивала проезд по платным участкам на скорости около 90 км/ч. В кабине находился водитель-испытатель, но к управлению не прикасался. Яндекс опубликовал непрерывную 8-часовую видеозапись поездки. Почему это важно: Знаковая веха для автономной AI-логистики в России, подтверждающая, что стек беспилотного вождения Яндекса достиг зрелости для дальних магистральных маршрутов. Подтверждает коммерческую состоятельность автономных грузоперевозок и укрепляет позиции Яндекса как ведущего разработчика беспилотных транспортных средств на российском рынке.

xAI запускает /goal в Grok Build для длительных автономных задач кодирования

xAI — Wed, 24 Jun 2026 00:00:00 +0000

xAI добавила команду /goal в Grok Build 22 июня 2026 года, обеспечивая долгосрочное автономное выполнение задач в терминальном агенте кодирования. При вызове агент создаёт чеклист прогресса и затем последовательно его выполняет — включая код-ревью, просмотр веб-страниц и запуск скриптов — вплоть до завершения и верификации задачи. Функция использует мультимодельную архитектуру, объединяющую Composer 2.5 и Grok Build 0.1. Доступ пока ограничен подписчиками SuperGrok Heavy ($300/месяц). Почему это важно: Команда /goal продвигает Grok Build от интерактивного ассистента кодирования к более автономному агенту программной инженерии, способному выполнять многошаговые проекты без постоянного участия человека, напрямую конкурируя с Codex от OpenAI и Claude Code от Anthropic в пространстве агентного кодирования.

SHERLOC: структурированная диагностическая локализация сокращает потребление токенов при ремонте кода на 36,7%

Wed, 24 Jun 2026 00:00:00 +0000

SHERLOC (arXiv 2606.24820, 23 июня) — фреймворк без дообучения, решающий задачу локализации ошибок при ремонте кода на уровне репозитория. Он связывает reasoning-LLM с компактными инструментами для работы с репозиторием и механизмом самовосстановления, производя структурированные диагностические выводы. Достигает 84,33% accuracy@1 на SWE-Bench Lite, сокращая суммарное потребление токенов на 36,7%, и улучшает показатель успешного ремонта downstream-агента на 5,95 процентных пункта. Почему это важно: Эффективность по токенам — практический потолок для агентных задач кодирования. Уполовинив стоимость локализации без какого-либо дообучения, SHERLOC делает дееспособных агентов ремонта кода существенно дешевле и проще в интеграции в существующие пайплайны.

Sakana AI выпускает Fugu: мульти-LLM-оркестратор, достигающий SoTA на SWE-Bench Pro

Sakana AI — Wed, 24 Jun 2026 00:00:00 +0000

Sakana AI опубликовала технический отчёт Fugu (arXiv 2606.21228, обновлён 23 июня 2026 года). Fugu — семейство моделей-оркестраторов, обученных координировать адаптивную команду специализированных LLM, динамически выстраивая агентные скаффолды под каждый запрос с помощью файн-тюнинга, эволюционных алгоритмов и RL. Два варианта: Fugu (баланс производительности и латентности) и Fugu-Ultra (максимальное качество). Достигает state-of-the-art результатов на SWE-Bench Pro, Terminal Bench, LiveCodeBench и GPQA-Diamond среди публично доступных моделей. Почему это важно: Fugu напрямую решает проблему привязки к одному вендору и фрагментации frontier-LLM, обучаясь компоновать специализированные модели вместо опоры на единственного провайдера. Достижение SoTA на сложных бенчмарках GPQA-Diamond и SWE-Bench Pro без монолитной модели — значимый архитектурный результат.

Qwen-AgentWorld: языковые world-модели для универсальных агентов в семи средах

Alibaba/Qwen — Wed, 24 Jun 2026 00:00:00 +0000

Команда Qwen от Alibaba опубликовала Qwen-AgentWorld (arXiv 2606.24597, 23 июня) — языковые world-модели в вариантах 35B-A3B и 397B-A17B MoE, симулирующие семь агентных сред: MCP, Search, Terminal, Software Engineering, Android, Web и OS. Обучены на более чем 10 миллионах траекторий реальных взаимодействий со средой. Также представлен AgentWorldBench, охватывающий все семь доменов. Модели могут служить масштабируемыми симуляторами для RL-обучения или в качестве разогрева для дальнейших агентных задач. Почему это важно: Первая языковая world-модель, охватывающая такой широкий спектр агентных сред, — единый симулятор для RL-обучения в семи доменах без необходимости поддерживать семь отдельных реальных сред — способна существенно снизить стоимость и сложность обучения дееспособных агентов. Самая голосованная статья на HF Daily Papers за 24 июня (36 голосов).

Prime Intellect выпускает prime-rl v0.6.0 для агентного RL на триллионно-параметрических MoE-моделях

Prime Intellect — Wed, 24 Jun 2026 00:00:00 +0000

Prime Intellect выпустила prime-rl v0.6.0 (22–23 июня 2026 года) — open-source-фреймворк для асинхронного обучения с подкреплением на триллионно-параметрических MoE-моделях, ориентированный на длительные агентные задачи наподобие разработки программного обеспечения. Фреймворк разделяет тренер и инференс на независимые асинхронные процессы. Демонстрация на GLM-5 запускала SWE-задачи при длине последовательности 131K с шагом менее 5 минут и размером батча роллаутов 256 всего на 28 узлах H200. Router replay сокращает KL-рассогласование между тренером и инференсом примерно в 10 раз. Почему это важно: Прежде масштабирование агентного RL до триллионного масштаба требовало кластеров, недоступных большинству исследовательских бюджетов. prime-rl 0.6.0 демонстрирует реализуемость на 28 узлах H200 — доступно для лабораторий среднего размера — а open-source-релиз позволяет другим организациям воспроизвести эту возможность.

OpenAI расширяет Daybreak: полный релиз GPT-5.5-Cyber, плагин Codex Security и Patch the Planet

OpenAI — Wed, 24 Jun 2026 00:00:00 +0000

22 июня 2026 года OpenAI расширила свою платформу кибербезопасности Daybreak: выпустила GPT-5.5-Cyber в полном релизе (85,6% на CyberGym — наивысший результат среди одиночных моделей на сегодняшний день), плагин Codex Security для поиска и устранения уязвимостей в рамках разработческих воркфлоу, а также «Patch the Planet» — open-source-инициативу, основанную совместно с Trail of Bits. Доступ к GPT-5.5-Cyber по-прежнему ограничен верифицированными специалистами по защите. В партнёрской программе Cyber Partner Program теперь более 20 вендоров, включая Cisco, CrowdStrike, Palo Alto Networks и Cloudflare; более 30 open-source-проектов — cURL, Go, Python и другие — присоединились к Patch the Planet. Почему это важно: Расширение Daybreak — наиболее конкретный шаг OpenAI в сторону корпоративной инфраструктуры кибербезопасности: сочетание специализированной дообученной модели, инструментария для разработчиков и скоординированной программы патчинга open-source позиционирует AI как системный защитный слой, а не точечный инструмент.

Modal запускает Auto Endpoints для производственного LLM-инференса на базе open-source-моделей

Modal — Wed, 24 Jun 2026 00:00:00 +0000

Modal опубликовала Auto Endpoints 23 июня 2026 года. Продукт разворачивает оптимизированные, совместимые с OpenAI API эндпоинты LLM-инференса одной командой, автоматически выбирая тип GPU, регион и флаги движка инференса, сохраняя при этом полный код обслуживания видимым и редактируемым. Включает спекулятивное декодирование с кастомными drafter-моделями. Базовое Modal App полностью доступно для инспекции и форка. Почему это важно: Занимает нишу между непрозрачными управляемыми API и DIY-самохостингом: производственно-оптимизированные настройки по умолчанию при полном владении конфигурацией — практично для команд, которым нужны соответствие требованиям или кастомные компромиссы по латентности и стоимости.

Mistral выпускает OCR 4 с bounding box'ами, классификацией блоков и поддержкой 170 языков

Mistral — Wed, 24 Jun 2026 00:00:00 +0000

Mistral опубликовала OCR 4 23 июня 2026 года. Новые возможности: bounding box'ы на уровне слов, типизированная классификация блоков (заголовки, таблицы, формулы, подписи) и оценки уверенности на уровне слов — что обеспечивает привязанные к источнику цитаты и пространственную индексацию. Модель поддерживает 170 языков в 10 языковых группах, обрабатывает форматы PDF, DOC, PPT и OpenDocument и запускается в режиме self-hosted в одном контейнере. На OlmOCRBench — 85,20 баллов (лучший общий результат), на OmniDocBench — 93,07. Цена: $4 за 1 000 страниц через API, $2 — через Batch API. Почему это важно: Bounding box'ы и оценки уверенности — наиболее востребованные возможности для document AI пайплайнов, позволяющие выделять фрагменты в контексте, извлекать данные из форм и выполнять пространственные рассуждения, недоступные при чисто текстовом извлечении. Поддержка self-hosting устраняет опасения по поводу утечки данных в регулируемых отраслях.

Krea публикует открытые веса Krea 2 Raw и Turbo: 12B DiT-модель генерации изображений за 2 секунды

Krea — Wed, 24 Jun 2026 00:00:00 +0000

Krea опубликовала открытые веса Krea 2 22 июня 2026 года на Hugging Face по кастомной сообщественной лицензии (коммерческое использование требует корпоративного соглашения для организаций с 50+ рабочими местами). Два варианта: Krea 2 Raw (базовый чекпойнт до RLHF, из середины обучения) и Krea 2 Turbo (дистиллированный, дообученный). 12B Diffusion Transformer генерирует изображения примерно за 2 секунды в режиме Turbo. По данным Krea, сервисом пользуются 30 миллионов пользователей в 191 стране. Почему это важно: Скорость генерации Krea 2 Turbo — 2 секунды при 12B параметрах — одна из самых высоких среди доступных open-weight text-to-image-моделей. Публикация базового чекпойнта Raw до RLHF предоставляет исследователям доступ к недистиллированному снимку середины обучения для файн-тюнинга и исследований в области выравнивания.

Google DeepMind и A24 объявляют о партнёрстве в области AI-исследований на $75 млн для киноиндустрии

Google DeepMind — Wed, 24 Jun 2026 00:00:00 +0000

Google DeepMind инвестировала $75 млн в кинокомпанию A24 и объявила о многолетнем неэксклюзивном партнёрстве в области исследований и разработок 22 июня 2026 года. Исследователи DeepMind будут работать вместе с кинематографистами A24 на активных съёмочных площадках для создания AI-воркфлоу на базе Veo. Это первая в истории Google инвестиция в виде доли в кинокомпании. Почему это важно: Наиболее прямая на сегодня интеграция frontier AI-лаборатории в голливудское производство: DeepMind получает реальные обратные связи от работающих кинематографистов, а Veo позиционируется как предпочтительный AI-инструмент для видео в арт-хаусном кино. Вслед за инвестициями Netflix и Amazon MGM в AI, это сигнализирует о консолидации AI в студийные пайплайны на уровне всей индустрии.

Переработанный терминальный интерфейс GitHub Copilot CLI выходит в General Availability

GitHub — Wed, 24 Jun 2026 00:00:00 +0000

Переработанный терминальный интерфейс GitHub Copilot CLI, анонсированный на Microsoft Build 2026, теперь общедоступен. Он вводит табличный макет (Session, Gists, Issues, Pull Requests) для навигации по GitHub прямо из терминала, управляемую конфигурацию инструментов внутри сессии через команды `/mcp add`, `/skills` и `/plugin` вместо ручного редактирования файлов, а также тема-адаптивные доступные цвета с поддержкой скринридеров. Почему это важно: Весь GitHub-воркфлоу, управляемый агентом кодирования, переносится полностью в терминал, устраняя переключение контекста между написанием кода и управлением задачами или PR. Интерактивный поток `/mcp add` снижает порог подключения Copilot CLI к кастомным MCP-серверам.

Cursor 3.9 запускает единую страницу Customize для плагинов, навыков, MCP и субагентов

Cursor — Wed, 24 Jun 2026 00:00:00 +0000

Cursor 3.9 (22 июня) объединяет плагины, навыки, MCP, субагентов, правила, команды и хуки в единую страницу Customize, управляемую на уровне пользователя, команды или рабочего пространства. Витрина с рейтингом расширений показывает самые популярные из них в команде с установкой в один клик. Плагины теперь поддерживают готовые канвасы (например, Hex Canvas для визуализации данных, Atlassian Canvas для отслеживания задач в реальном времени). Командные маркетплейсы расширены для импорта репозиториев плагинов из GitLab, BitBucket и Azure DevOps. Почему это важно: Cursor движется к полноценной экосистеме плагинов с управлением на уровне команды, эволюционируя от персонального IDE к управляемой и разделяемой платформе для разработчиков. Готовые канвасы превращают плагины в полноправные интерактивные поверхности, а не просто хуки автоматизации.

Claude Code v2.1.187: изоляция учётных данных в sandbox и исправление зависания remote MCP

Anthropic — Wed, 24 Jun 2026 00:00:00 +0000

Claude Code v2.1.187 (23 июня) добавляет настройку `sandbox.credentials`, блокирующую чтение файлов учётных данных и секретных переменных окружения сандбоксированными командами, вводит ограничения на выбор модели, настраиваемые организацией через пикер моделей, и устраняет зависание вызовов remote MCP-инструментов, которые ранее могли ожидать до 5 минут перед отменой. Почему это важно: Настройка изоляции учётных данных закрывает реальную уязвимость, при которой сандбоксированные подпроцессы могли извлекать секреты; исправление зависания MCP устраняет блокирующую проблему надёжности для команд, запускающих агентные воркфлоу с внешними серверами инструментов.

ByteDance анонсирует Seedance 2.5: нативное 4K-видео длительностью 30 секунд с 50 референсными входами

ByteDance — Wed, 24 Jun 2026 00:00:00 +0000

На той же конференции Volcano Engine FORCE 23 июня ByteDance анонсировала Seedance 2.5 — видеомодель нового поколения. Модель генерирует нативное 30-секундное видео в одном клипе при разрешении 4K и цветовой глубине 10 бит, принимая до 50 мультимодальных референсных входов одновременно — изображения, аудио, 3D-модели, стилевые референсы — против 12 в предыдущей версии. Локальное постгенерационное редактирование сохраняет визуальный стиль. Модель находится в глобальной корпоративной бета-версии; публичный запуск запланирован на начало июля 2026 года. Почему это важно: Расширение однопроходной генерации видео до 30 секунд при 4K преодолевает ключевой производственный барьер, который большинство существующих моделей не могут преодолеть без артефактов склейки. Возможность принимать 50 мультимодальных референсов ориентирована на профессиональные кино- и рекламные пайплайны и напрямую конкурирует с Runway и Kling в высшем сегменте.

ByteDance представляет Doubao-Seed-2.1-Pro на конференции Volcano Engine FORCE

ByteDance — Wed, 24 Jun 2026 00:00:00 +0000

ByteDance представила Doubao-Seed-2.1-Pro 23 июня на конференции Volcano Engine FORCE в Пекине — производственную frontier-LLM для задач кодирования, долгосрочных агентных задач и мультимодального понимания. Также выпущена Doubao-Seed-2.1-Turbo вдвое дешевле (6 юаней за миллион входных токенов / 30 юаней за миллион выходных у Pro). ByteDance заявляет о паритете с GPT-5.5 на бенчмарках по кодированию и агентным задачам, занимая первые места на OSWorld, MobileWorld и MMMU-Pro. Семейство Doubao теперь превышает 180 триллионов токенов в сутки — рост в 10 раз год к году. Почему это важно: ByteDance напрямую конкурирует с frontier-закрытыми моделями по ценам китайского рынка, используя потребительский продукт Doubao как канал дистрибуции и внутренний стенд для оценки. 180 триллионов токенов в сутки свидетельствуют о гиперпроизводственном масштабе Seed-моделей — это уже не исследовательский уровень.

Anthropic запускает Claude Tag — постоянного AI-участника команды в Slack

Anthropic — Wed, 24 Jun 2026 00:00:00 +0000

Anthropic запустила Claude Tag в бета-версии 23 июня 2026 года для клиентов Claude Enterprise и Team. Функция добавляет Claude в Slack как постоянного мультипользовательского участника команды, которого можно вызывать через @-упоминание для делегирования задач. Claude со временем обучается на истории каналов, может работать асинхронно, а при включении ambient mode — проактивно сообщает о релевантной информации без явных запросов. Функция работает на базе Claude Opus 4.8 и заменяет существующее приложение Claude for Slack. По данным Anthropic, внутренняя версия уже генерирует 65% кода продуктовой команды компании. Почему это важно: Claude Tag — наиболее прямой выход Anthropic на рынок корпоративного коллаборационного ПО: Claude превращается из чат-бота в постоянно доступного автономного агента, встроенного в рабочий слой, где реально работают команды. Мультипользовательский дизайн — один общий Claude на Slack-канал — представляет новую парадигму взаимодействия, обеспечивающую коллективное делегирование вместо индивидуальных промптов.

Алиса Яндекса получила агентное бронирование ресторанов и салонов красоты по всей России

Yandex — Wed, 24 Jun 2026 00:00:00 +0000

Яндекс запустил возможность агентного бронирования в чате Алисы 23 июня 2026 года. Теперь пользователи могут бронировать столики в ресторанах и записываться в салоны красоты через диалог на естественном языке — охват более 30 000 ресторанов и 40 000 сервисных бизнесов по всей стране. Для заведений, подключённых к Яндекс Еде, бронирование подтверждается автоматически; для остальных Алиса заполняет форму резервирования на сайте заведения. Доступно в alice.yandex.ru, приложении Алиса, Яндекс Браузере и основном приложении Яндекса. Почему это важно: Конкретный переход от AI-ассистента к транзакционному AI-агенту: Алиса теперь выполняет реальные действия (бронирование, заполнение форм), а не просто даёт рекомендации, расширяя практическую пользу для десятков миллионов российских пользователей.

Рыночная капитализация Zhipu AI превысила HK$1 трлн на волне GLM-5.2

Zhipu AI — Tue, 23 Jun 2026 00:00:00 +0000

Акции Zhipu AI взлетели внутри дня 22 июня 2026 года на 42%, впервые подняв рыночную капитализацию гонконгской компании выше HK$1 трлн (около US$128 млрд). Ралли обусловлено сохраняющимся интересом инвесторов к GLM-5.2 — модели с 753B параметрами, открытыми весами под лицензией MIT — а также апгрейдом от JPMorgan, повысившего прогноз выручки Zhipu на 2026–2030 годы на 7–16%. GLM-5.2 занял второе место в мировом рейтинге Code Arena по фронтенд-бенчмарку, уступив лишь Claude Fable 5 от Anthropic. Почему это важно: То, что Zhipu AI стала первой китайской open-source AI-лабораторией с капитализацией выше HK$1 трлн, свидетельствует: открытые фронтирные модели китайских лабораторий теперь пользуются рыночным доверием уровня западных фронтирных компаний.

World Action Models: обзор

National University of Singapore — Tue, 23 Jun 2026 00:00:00 +0000

Всесторонний обзор World Action Models (WAMs) — воплощённых предиктивно-действенных моделей, предсказывающих будущие состояния для управления роботами. Авторы систематизируют 109 методов по трём философиям проектирования (Render-and-Decode, Latent-Only, Video-Generation-Free) и четырём архитектурным осям, делая вывод о том, что область движется к генерации меньшего объёма будущего при сохранении необходимого для управления. Почему это важно: 217 голосов на HuggingFace Daily Papers (лучшая статья 23 июня); представляет первую строгую таксономию, разграничивающую истинные WAMs и видеогенераторы по мере того, как компромисс между вычислениями и действием становится ключевым в проектировании воплощённого ИИ.

Claude Fable 5 выходит из подписочных планов и переходит на кредиты использования

Anthropic — Tue, 23 Jun 2026 00:00:00 +0000

С 23 июня 2026 года Claude Fable 5 исключён из лимитов планов Pro, Max, Team и Enterprise с посадочной оплатой; дальнейший доступ требует кредитов использования по тарифу $10/млн входных и $50/млн выходных токенов — вдвое дороже Opus 4.8. Anthropic объяснила изменение ограничениями мощностей и сообщила, что модель может вернуться в подписочные планы после их расширения. Почему это важно: Fable 5 — ведущая coding-модель Anthropic (лидер на SWE-bench и FrontierCode), поэтому смена ценообразования напрямую затрагивает разработчиков и команды, использующие её в агентных pipeline.

Claude Code v2.1.186: MCP CLI-авторизация, авто-ответ на Bash, фильтрация воркфлоу

Anthropic — Tue, 23 Jun 2026 00:00:00 +0000

Claude Code v2.1.186 (выпущен 22 июня) добавляет CLI-команды `claude mcp login ` и `claude mcp logout ` для авторизации MCP-серверов без интерактивного меню, настраивает автоматические ответы Claude на команды `!` bash (отключается через `respondToBashCommands: false`), добавляет фильтрацию статусов в детальный вид `/workflows` и раздел Skills в `/plugin`, а также устраняет сбои стриминга после перехода машины в сон и многочисленные ошибки субагентов и управления сессиями. Почему это важно: Новый MCP CLI auth flow и авто-ответ на bash существенно упрощают headless- и SSH-воркфлоу, а дополнения UX для воркфлоу и плагинов отражают растущую роль Claude Code как оркестратора мультиагентных, мультиинструментальных pipeline.

Агентные трансформеры доказуемо обучаются поиску через обучение с подкреплением

Tue, 23 Jun 2026 00:00:00 +0000

Теоретическое исследование, доказывающее, что агенты на основе трансформеров, обученные методом policy gradient в стохастической среде k-арного дерева, закономерно развивают механизм поиска в глубину: одна голова внимания отслеживает предыдущие действия, другая обнаруживает неудачи и инициирует откат. Политики, обученные на мелких деревьях, обобщаются на более глубокие без дополнительного обучения. Почему это важно: Предоставляет редкие доказуемые гарантии для эмерджентного агентного поиска в трансформерах, обученных с помощью RL, механистически объясняя, почему агенты, обученные по учебному плану, способны обобщаться за пределы тренировочного распределения.

Яндекс добавил в чат Алисы более 30 AI-персонажей с уникальными личностями

Yandex — Mon, 22 Jun 2026 00:00:00 +0000

Яндекс запустил более 30 AI-персонажей с уникальными личностями в интерфейсе чата Алисы — от блогеров до аниме-героев, каждый предназначен для конкретных сценариев: эмоциональная поддержка, саморазвитие или развлечение. Пользователи также могут создавать собственных персонажей, задав имя и описание поведения; персонажи сохраняют историю разговора между сессиями и доступны на alice.yandex.ru, в приложениях для iOS/Android и в Яндекс Браузере. Почему это важно: Сигнализирует о движении Яндекса в сегмент companion/social AI наряду с ассистентными функциями, в конкуренции с персонажными AI-платформами по всему миру

S-Agent: пространственное использование инструментов активирует пространственный интеллект в VLM

Nanyang Technological University — Mon, 22 Jun 2026 00:00:00 +0000

S-Agent переосмысляет пространственное рассуждение в vision-language моделях как агентный процесс: VLM-планировщик вызывает пространственные инструменты для накопления свидетельств по проекциям из 2D в 3D и во времени, сохраняя память о сцене и агенте между кадрами. Подход не требует дообучения существующих моделей, а fine-tuned S-Agent-8B достигает результатов закрытых моделей на пространственных бенчмарках. Почему это важно: Показывает, что агентность с инструментами может заменить грубое масштабирование в пространственном интеллекте: модель на 8B параметров достигает уровня frontier-систем с закрытым исходным кодом

llama.cpp b9754: прогресс загрузки модели в реальном времени через SSE и PEG-парсер грамматик

Mon, 22 Jun 2026 00:00:00 +0000

llama.cpp выпустил ~12 тегированных сборок 21 июня 2026 года (b9743–b9754). Ключевые добавления: b9747 добавляет отслеживание прогресса загрузки модели в реальном времени через /models/sse (Server-Sent Events); b9750 реализует оператор call из Jinja для генерации шаблонов; b9754 добавляет автоматный PEG-парсер для более строгой генерации с грамматическими ограничениями. Все сборки поставляются с кросс-платформенными бинарными файлами для macOS, Linux, Windows и Android. Почему это важно: SSE-стриминг прогресса в реальном времени снижает непрозрачную задержку при запуске для frontend-клиентов локального инференса; PEG-парсер повышает надёжность структурированного вывода

GateMem: бенчмарк управления памятью в агентах с разделённым доступом

Mon, 22 Jun 2026 00:00:00 +0000

GateMem — бенчмарк для оценки LLM-агентов, развёртываемых в многопользовательских институциональных средах (больницы, офисы, школы), по трём конкурирующим целям: полезность для легитимных запросов, ролевое управление доступом и надёжное удаление данных. Тестирование всех существующих методов показало, что ни один из них не обеспечивает все три свойства одновременно, что обнажает критический пробел перед реальным внедрением в организациях. Почему это важно: Первый систематический бенчмарк управления памятью для агентов с разделённым доступом; напрямую релевантен для корпоративной безопасности и compliance по мере выхода агентных систем в регулируемые среды

Runway запускает Studio: единый AI-инструмент видеомонтажа

Runway — Sun, 21 Jun 2026 00:00:00 +0000

18 июня 2026 года Runway выпустил Studio — единый интерфейс, позволяющий нарезать, склеивать, переставлять и экспортировать финальное видео, не покидая платформу. Функция замыкает цепочку между AI-генерацией и постпродакшн-монтажом в одном рабочем пространстве. Почему это важно: Runway переходит от инструмента только для генерации к полноценной платформе для производства видео от начала до конца, снижая потребность в отдельном монтажном ПО и делая AI-генерацию видео более пригодной для финальной доставки.

Игровое агентное обучение роботов: самостоятельная игра формирует переносимые навыки

UC Berkeley — Sun, 21 Jun 2026 00:00:00 +0000

Robotics Agent Teams (RATs) приобретают навыки через самостоятельную игру до задания каких-либо целевых задач. В ходе игры агент генерирует новые исследовательские задачи, пишет и исполняет код политик для робота, диагностирует сбои, повторяет попытки с обратной связью на уровне шагов и дистиллирует успехи в многоразовую библиотеку кода. Навыки, приобретённые в ходе игры, улучшили производительность на отложенных задачах на 20,6 и 17,0 процентного пункта по сравнению с базовыми линиями на LIBERO-PRO и MolmoSpaces и перенеслись на другие агенты Code-as-Policy без дообучения. Почему это важно: Демонстрирует, что неструктурированная предзадачная игра с политиками на основе кода формирует навыки, обобщающиеся на незнакомые задачи и сторонних агентов, — шаг к роботам, самосовершенствующимся до развёртывания. Работа получила 42 апвоута на HuggingFace Daily Papers.

OpenCode v1.17.9: поддержка GLM-5.2 и исправления MCP

SST — Sun, 21 Jun 2026 00:00:00 +0000

OpenCode v1.17.9, выпущенный 21 июня 2026 года, добавляет варианты high и max thinking для моделей GLM-5.2, исправляет определение модели Devstral при различном регистре идентификатора провайдера, передаёт пользовательские заголовки в запросы к модели Copilot и устраняет отклонение схем MCP-инструментов OpenAI-совместимыми провайдерами. Также исправлены передача API-ключа Cloudflare AI Gateway, мерцание временно́й шкалы сессии; теперь при достижении лимита шагов агент принудительно формирует финальный текстовый ответ вместо аварийного завершения. Почему это важно: Поддержка thinking-режима GLM-5.2 выходит в день нарастающей волны принятия модели; исправление схем MCP разблокирует класс провайдеров, которые тихо не работали.

OpenAI Codex получает Record and Replay для создания повторно используемых навыков

OpenAI — Sun, 21 Jun 2026 00:00:00 +0000

18 июня 2026 года OpenAI выпустил Record & Replay для Codex (версия приложения 26.616): пользователь один раз демонстрирует повторяющийся рабочий процесс на macOS, а Codex преобразует его в многоразовый файл SKILL.md с поддержкой переменных входных данных. В отличие от классического RPA, функция фиксирует намерение, а не точные пиксельные координаты, что делает её устойчивой к изменениям интерфейса. Доступно подписчикам ChatGPT Plus, Pro, Business, Enterprise и Edu за пределами ЕС, Великобритании и Швейцарии. Почему это важно: Запись рабочих процессов снижает порог автоматизации с помощью ИИ: не-разработчики могут обучать Codex задачам без написания промптов или скриптов, распространяя агентные возможности на значительно более широкую аудиторию.

Moebius: лёгкая модель инпейнтинга на 0,2 млрд параметров сравнялась с FLUX на 11,9 млрд

Huazhong University of Science and Technology — Sun, 21 Jun 2026 00:00:00 +0000

Moebius представляет модель инпейнтинга изображений на 0,22 млрд параметров, которая сравнивается или превосходит FLUX.1-Fill-Dev (11,9 млрд параметров) за счёт блока Local-λ Mix Interaction, сжимающего пространственный контекст и глобальные семантические приоры в матрицы фиксированного размера. Адаптивная дистилляция в латентном пространстве с несколькими уровнями гранулярности обеспечивает 15-кратное ускорение инференса. Почему это важно: Бумага с наибольшим числом голосов на HuggingFace Daily Papers (более 100). Демонстрирует, что экстремальная параметрическая эффективность (менее 2% от размера базовой модели) достижима для сложной задачи генерации без потери качества.

Mistral переименовывает Le Chat в Vibe: единый агент для работы и написания кода

Mistral — Sun, 21 Jun 2026 00:00:00 +0000

В июне 2026 года Mistral переименовал продукт Le Chat в Vibe, объединив рабочие и кодинговые возможности в рамках одного агента и единой лицензии. Vibe включает Work Mode (агент для долгосрочных задач, самостоятельно выбирающий инструменты и транслирующий прогресс) и Code Mode (для удалённого кодирования и создания pull request'ов), новое расширение для VS Code и обновления CLI для автоматизации на уровне проекта. Все существующие разговоры, настройки и планы Le Chat переносятся автоматически. Почему это важно: Ребрендинг сигнализирует о стратегическом повороте Mistral от чат-ассистента к единой агентной платформе, напрямую конкурирующей с Cursor, Codex и Claude Code.

Насколько прозрачна DiffusionGemma? Исследование интерпретируемости сокращает разрыв с авторегрессионными моделями

Google DeepMind — Sun, 21 Jun 2026 00:00:00 +0000

Статья исследует, сложнее ли интерпретировать DiffusionGemma — маскированную дискретно-диффузионную языковую модель с рассуждением в непрерывном латентном пространстве — по сравнению с авторегрессионными моделями. Пропуская промежуточные состояния денойзинга через интерпретируемое токенное узкое место, авторы сократили кажущийся разрыв в прозрачности с 28,6× до 1,1× относительно Gemma 4, а также выявили специфичные для диффузии феномены: нехронологическое рассуждение и смазывание токенов. Среди соавторов — Neel Nanda и Rohin Shah. Почему это важно: Первое систематическое исследование механистической интерпретируемости диффузионной языковой модели производственного масштаба с прямыми последствиями для мониторинга безопасности ИИ по мере распространения диффузионных LM.

FAPO: полностью автономная оптимизация промптов в многошаговых LLM-пайплайнах

Cisco Foundation AI — Sun, 21 Jun 2026 00:00:00 +0000

FAPO оценивает выходные данные многошагового LLM-пайплайна, атрибутирует сбои конкретному шагу, предлагает точечные варианты промптов, проверяет их независимым агентом и итерирует до улучшения точности или исчерпания бюджета. Система превзошла GEPA (актуальный state-of-the-art оптимизатор) в 15 из 18 пар модель–бенчмарк, со средним приростом +14,1 процентного пункта и +33,8 на задачах, требующих структурных изменений промптов. Открытый исходный код под лицензией Apache 2.0. Почему это важно: Атрибуция сбоев на уровне шагов качественно отличается от рассмотрения пайплайна как чёрного ящика — это позволяет проводить точечную оптимизацию, недоступную методам без учёта структуры пайплайна.

ElevenLabs Music v2 API открывает смену жанров и инпейнтинг

ElevenLabs — Sun, 21 Jun 2026 00:00:00 +0000

В середине июня 2026 года ElevenLabs открыл модель Music v2 через публичный API. Модель поддерживает посекционное создание песен, смену жанра в середине трека (например, от оперы к хэви-металу в одном произведении) и инпейнтинг отдельных сегментов. Цены API снизились на 50% по сравнению с Music v1. Коммерческое лицензирование включено. Почему это важно: API Music v2 с чанк-based компоновкой и коммерческим лицензированием делает его первой доступной разработчикам моделью генерации музыки со структурированными примитивами построения песен, напрямую конкурируя с Suno v5.5 по качеству и гибкости интеграции.

DeepSeek закрывает раунд Series A на $7,4 млрд при оценке $55 млрд: лиды — Tencent и CATL

DeepSeek — Sun, 21 Jun 2026 00:00:00 +0000

16 июня 2026 года DeepSeek закрыл первый внешний раунд финансирования, привлёкший около 51 млрд юаней ($7,4 млрд) при постинвестиционной оценке около $55 млрд. Ведущими внешними инвесторами стали Tencent ($1,5 млрд) и CATL ($740 млн), основатель Лян Вэньфэн лично вложил $3 млрд. Сделка имеет нестандартную структуру управления: коммерческие инвесторы не получили права голоса и столкнулись с пятилетним локапом, тогда как государственный Национальный инвестиционный фонд в сфере ИИ получил прямую долю с эксклюзивными правами голоса. Почему это важно: Крупнейший первый раунд финансирования в истории китайского ИИ. Структура управления — передача единоличного контроля государственным инвесторам при блокировке частного капитала — создаёт новый прецедент государственного контроля над фронтирным ИИ и немедленно привлекает внимание западных регуляторов и инвесторов.

Claude Code v2.1.185 улучшает сообщение о зависании потока API

Anthropic — Sun, 21 Jun 2026 00:00:00 +0000

Версия 2.1.185 (20 июня 2026 года) меняет индикатор зависания потока с «No response from API · Retrying in …» на «Waiting for API response · will retry in …» и увеличивает порог перед появлением подсказки с 10 до 20 секунд.

ChatGPT добавляет помощь с произношением на 60+ языках и хаб Чемпионата мира

OpenAI — Sun, 21 Jun 2026 00:00:00 +0000

18–19 июня 2026 года OpenAI выпустил ряд улучшений ChatGPT: аудио- и текстовую помощь с произношением слов на более чем 60 языках, специальный раздел для FIFA World Cup 2026 с расписаниями, прогнозами и историями игроков, более гибкое управление разрешениями подключённых приложений, улучшенную организацию чатов с закреплением на боковой панели и поделиться одним кликом, ускоренную загрузку фото на iOS, а также выбор модели для каждого сообщения на Android для платных пользователей. Почему это важно: Произношение на 60+ языках расширяет полезность ChatGPT для изучающих языки по всему миру; хаб Чемпионата мира обозначает движение OpenAI в сторону спорта в реальном времени и аналитики live-событий.

Zhipu AI выпускает открытые веса GLM-5.2: 753B MoE с контекстом 1M токенов под лицензией MIT

Zhipu AI / Z.ai — Fri, 19 Jun 2026 00:00:00 +0000

Z.ai (бывшая Zhipu AI) опубликовала полные веса GLM-5.2 под лицензией MIT на HuggingFace 17 июня 2026 года. Модель представляет собой 753B-параметрическую архитектуру mixture-of-experts с контекстным окном в 1 миллион токенов, оптимизированную для долгосрочного кодирования и агентных задач. Региональные ограничения отсутствуют. На Code Arena модель занимает второе место в мире среди открытых моделей, уступая лишь закрытым лидерам. Почему это важно: GLM-5.2 — сильнейшая открытая модель для долгосрочного кодирования на момент релиза, сопоставимая с рядом закрытых фронтирных моделей на бенчмарках по программированию. Лицензия MIT без региональных ограничений — редкое сочетание для крупномасштабной модели от китайской лаборатории.

xAI выпускает Grok Imagine Video 1.5: первое место в Video Arena Leaderboard по цене $4.20/мин

xAI — Fri, 19 Jun 2026 00:00:00 +0000

xAI выпустила Grok Imagine Video 1.5 в общем доступе 17 июня 2026 года, заняв первое место в таблице лидеров Image-to-Video Arena с ростом Elo на +52. Модель генерирует нативный синхронизированный звук; режим 'fast' создаёт 6-секундные клипы в 720p примерно за 25 секунд. Цена — $4.20/мин, что на 86% дешевле Sora 2 по $30/мин. Доступна на grok.com/imagine, iOS, Android и через Imagine API. Почему это важно: Grok Imagine Video 1.5 занимает первое место в бенчмарке при значительно более низкой цене, чем у конкурентов, создавая прямое давление на Sora 2 и другие премиальные сервисы генерации видео.

StylisticBias: 15 визуальных атрибутов объясняют 80% социальных предубеждений в мультимодальных LLM

Fri, 19 Jun 2026 00:00:00 +0000

Контролируемый бенчмарк из ~25 000 фотореалистичных изображений — ~50 вариаций на атрибут для базового лица при фиксированной идентичности — показывает, что возраст и тип телосложения доминируют в предубеждениях на уровне идентичности в MLLM, тогда как стиль одежды создаёт наибольшие сдвиги на уровне атрибутов. На шести MLLM и 25 сценариях социальных суждений ~15 атрибутов объясняют ~80% вариации предубеждений. Принята на воркшопы ICML 2026. Почему это важно: Даёт Pareto-объяснение социальных предубеждений MLLM: практики могут сосредоточиться на небольшом наборе высокоэффективных визуальных атрибутов вместо аудита всех возможных переменных. Методология изоляции атрибутов при фиксированной идентичности строже, чем в предыдущих целостных оценках.

OpenAI публикует Deployment Simulation: предсказание поведения модели до релиза

OpenAI — Fri, 19 Jun 2026 00:00:00 +0000

OpenAI представила исследование Deployment Simulation — метода, воспроизводящего деидентифицированные пользовательские разговоры через модель-кандидат для предсказания её производственного поведения до релиза. Анализ 1,3 миллиона разговоров на моделях от GPT-5 Thinking до GPT-5.4 позволил достичь медианной мультипликативной ошибки 1,5x при прогнозировании поведенческих метрик и обнаружить «calculator hacking» — новый вид рассогласования — до выхода в продакшн. Почему это важно: Масштабируемый подход к предварительной проверке безопасности, использующий реальный трафик для стресс-тестирования предстоящих версий моделей — в отличие от узких ручных оценок.

OpenAI: GPT-5.5 Instant Health Intelligence достигает уровня фронтирных моделей и теперь доступен бесплатно

OpenAI — Fri, 19 Jun 2026 00:00:00 +0000

OpenAI опубликовала обновление 18 июня 2026 года, показывающее, что производительность GPT-5.5 Instant в медицинской сфере теперь соответствует фронтирным моделям на HealthBench Professional при снижении проблем с фактологической точностью на 71% по сравнению с GPT-5.3 Instant. Врачи-эксперты оценивали ответы модели в 3 500 клинических сценариях по точности и качеству коммуникации. Модель доступна всем бесплатным пользователям ChatGPT. Почему это важно: Более 230 миллионов еженедельных пользователей ChatGPT получают доступ к медицинскому ИИ фронтирного класса. Улучшение фактологической точности на 71% особенно важно в высокорисковой медицинской области.

Ollama v0.30.10: модели Cohere Command A и North на Apple Silicon через MLX

Ollama — Fri, 19 Jun 2026 00:00:00 +0000

Ollama v0.30.10 позволяет запускать Cohere Command A и семейство моделей North на Apple Silicon с использованием движка MLX, расширяя число моделей, получающих преимущества от памятно-эффективного ускорения MLX. Релиз также обновляет встроенный движок llama.cpp до сборки b9672. Почему это важно: Позволяет пользователям Apple Silicon запускать дополнительные модели фронтирного класса локально без обращения к API.

Коллапс предпочтений мультимодального оценщика: кросс-модальное заражение в циклах самоэволюции агентов

Fri, 19 Jun 2026 00:00:00 +0000

Исследование посвящено распространению кросс-модального смещения оценщика в циклах самоэволюции агентов с использованием LLM в роли судей. Фреймворк MM-EPC показывает, что при оценке GPT-4o модели DeepSeek-chat по нескольким модальностям одна стратегия может монополизировать почти половину сигнала вознаграждения — «кросс-модальное заражение». Кросс-модельная оценка является основным фактором риска; самооценка демонстрирует практически полный иммунитет. Подтверждено примерно 35 000 API-вызовами. Почему это важно: По мере распространения самосовершенствующихся агентов понимание того, как выбор оценщика искажает сигналы вознаграждения, становится критически важным. Обнаружение того, что самооценка позволяет избежать заражения, создаёт конкретный компромисс в дизайне пайплайнов RLHF и эволюции агентов.

llama.cpp b9716: мультимодальный батчинг InternVL, CUDA col2im и исправление SSE для Nginx

Fri, 19 Jun 2026 00:00:00 +0000

llama.cpp выпустил более десяти сборок 18–19 июня (b9702–b9716). Ключевые дополнения: поддержка батчинга для мультимодальных моделей InternVL в пайплайне mtmd, операция CUDA col2im 1D, исправление стриминга с добавлением заголовка `X-Accel-Buffering: no` для предотвращения буферизации SSE-ответов в Nginx, а также возврат HTTP 400 при некорректных грамматических входных данных вместо молчаливого игнорирования. Также добавлены схема сервера и валидация запросов. Почему это важно: Исправление буферизации SSE в Nginx — широко распространённая производственная проблема для всех, кто запускает llama.cpp за обратным прокси; изменение в валидации грамматики улучшает отладку для сценариев структурированного вывода.

Kling AI выпускает 3.0 Turbo и 3.0 Omni: быстрые превью и 4K-редактирование с консистентностью персонажей

Kuaishou — Fri, 19 Jun 2026 00:00:00 +0000

Kuaishou выпустила два дополнения к семейству Kling 3.0 17 июня 2026 года. Kling 3.0 Turbo — режим быстрого предпросмотра, генерирующий клипы длительностью 1–15 секунд в разрешении 480p/720p для быстрой творческой итерации перед финальным рендером. Kling 3.0 Omni расширяет пайплайн редактирования до видео длительностью 3–15 секунд с 4K-вводом/выводом, добавляет покадровое управление раскадровкой, функцию 'Reference to Video' для сохранения консистентности персонажа и фона на основе многоракурсных референсов, а также перенос движения и голоса из существующих видеоклипов. Почему это важно: Turbo решает проблему высокой стоимости тестирования творческих идей в AI-видео. Omni переводит Kling в сегмент высококачественного редактирования длинных форматов, напрямую конкурируя с Runway Gen-4.5. Kling сообщает о 100 миллионах зарегистрированных пользователей по всему миру.

Google DeepMind публикует AI Control Roadmap: эшелонированная защита от рассогласованных агентов кодирования

Google DeepMind — Fri, 19 Jun 2026 00:00:00 +0000

Google DeepMind опубликовала детальный AI Control Roadmap, описывающий защиту внутренних систем от потенциально рассогласованных AI-агентов кодирования. Фреймворк рассматривает рассогласованный ИИ как внутреннюю угрозу и применяет эшелонированную защиту, сочетающую меры кибербезопасности со специфическим для ИИ мониторингом. Команда проанализировала более миллиона траекторий агентов кодирования для построения систем мониторинга в реальном времени и обнаружила, что большинство помеченных поведений объясняется неверной интерпретацией агентом задачи, а не враждебными намерениями. Почему это важно: Документирует испытанный в продакшне подход к контролю ИИ для агентных развёртываний кодирования, предоставляя конкретный план, который другие организации могут адаптировать при внутреннем развёртывании агентов кодирования.

Changelog GitHub Copilot от 18 июня: MAI-Code-1-Flash расширяется, AGENTS.md появляется в code review

GitHub — Fri, 19 Jun 2026 00:00:00 +0000

Changelog GitHub от 18 июня 2026 года включает: MAI-Code-1-Flash (5B-параметрическая модель кодирования Microsoft) теперь доступна в Copilot CLI, приложении GitHub Copilot и Copilot Chat — помимо дебюта на Build 2026. Code review получает поддержку файлов AGENTS.md на уровне репозитория, позволяя командам документировать соглашения по работе с агентами так, чтобы инструменты ревью их учитывали. Обнаружение дублирующихся задач вышло в публичный предварительный просмотр. PR, созданные Copilot, теперь можно найти через поиск по `author:`. Почему это важно: Поддержка AGENTS.md в code review устанавливает соглашение на уровне репозитория для документирования поведения агентов — это может стать стандартным паттерном в различных инструментах. Расширение MAI-Code-1-Flash даёт пользователям Copilot быструю модель под управлением Microsoft на большем числе поверхностей.

ENPIRE: агенты кодирования ИИ замыкают цикл физических робототехнических исследований без участия человека

NVIDIA / Carnegie Mellon University / UC Berkeley — Fri, 19 Jun 2026 00:00:00 +0000

ENPIRE — фреймворк с замкнутым циклом, в котором агенты кодирования ИИ (Codex, Claude Code, Kimi Code) проводят полный цикл робототехнических исследований на реальном оборудовании: сброс сцен, запуск экспериментов, проверка результатов и перезапись политик до успешного завершения. При тестировании задач с контактным взаимодействием, включая вставку видеокарты и работу с нейлоновыми стяжками, система достигла pass@8 = 99% без участия человека. Новые метрики MRU и MTU количественно оценивают эффективность физических авто-исследований. Почему это важно: Первая задокументированная система, в которой фронтирные агенты кодирования автономно выполняют полный научный цикл — гипотеза, эксперимент, оценка, итерация — на реальных роботах, а не в симуляции, сокращая разрыв между AI-сгенерированным кодом и физической валидацией.

Claude Code v2.1.183: защитные ограничения автоматического режима для деструктивных git- и инфраструктурных команд

Anthropic — Fri, 19 Jun 2026 00:00:00 +0000

Claude Code v2.1.183 (19 июня 2026 года) добавляет в автоматический режим ограничения, блокирующие деструктивные git-операции — `git reset --hard`, `git checkout -- .`, `git clean -fd`, `git stash drop` — если пользователь явно не просил удалить локальные изменения. `git commit --amend` блокируется для коммитов, не созданных агентом в текущей сессии, а команды уничтожения инфраструктуры (`terraform destroy`, `pulumi destroy`, `cdk destroy`) блокируются при отсутствии явного указания конкретного стека. Новая настройка `attribution.sessionUrl` позволяет не добавлять ссылки на сессию claude.ai в коммиты и PR. Почему это важно: Предотвращает молчаливое уничтожение агентными сессиями локальных изменений или облачной инфраструктуры, повышая базовый уровень безопасности для задач без участия человека.

AWS Summit New York 2026: общая доступность Bedrock AgentCore, iOS-предпросмотр Kiro и анонс AWS Context

Amazon — Fri, 19 Jun 2026 00:00:00 +0000

На AWS Summit New York (17–18 июня 2026 года) Amazon объявила о переходе Bedrock AgentCore в общую доступность с управляемыми базами знаний, нативными коннекторами данных, Smart Parsing для многоформатных документов и встроенным веб-поиском. Kiro — агентная IDE AWS на основе спецификаций — получила нативное iOS-приложение в закрытом предпросмотре для мониторинга и управления агентными сессиями. AWS Context был представлен как сервис графа знаний для агентного поиска. Среди прочих анонсов — AWS DevOps Agent для автономного тестирования релизов и инстансы EC2 G7 с GPU NVIDIA Blackwell. Почему это важно: Общая доступность Bedrock AgentCore делает продуктовую оркестрацию агентов доступной без написания собственных циклов. Kiro для iOS — ранний сигнал того, что мобильный надзор за агентами становится отдельной продуктовой категорией.

Alibaba запускает Qwen-Robot Suite: три базовые модели для воплощённого ИИ и робототехники

Alibaba / Qwen — Fri, 19 Jun 2026 00:00:00 +0000

Команда Qwen от Alibaba объявила о Qwen-Robot Suite 16 июня 2026 года. Набор включает три специализированные базовые модели: Qwen-RobotNav (автономная навигация), Qwen-RobotManip (управление роботизированной рукой на различном оборудовании) и Qwen-RobotWorld (видеомодель мира для предсказания физических сценариев). Suite достиг лидирующих результатов на десятках робототехнических бенчмарков и вошёл в пилотное тестирование с корпоративными клиентами Alibaba Cloud. Почему это важно: Первый специализированный AI-набор Alibaba для робототехники, расширяющий бренд Qwen в область физического ИИ и позиционирующий его против Google DeepMind и Figure.

Яндекс открывает исходный код формата данных YaFF, экономя до 20% серверных мощностей

Yandex — Thu, 18 Jun 2026 00:00:00 +0000

17 июня 2026 года Яндекс опубликовал в открытом доступе YaFF (Yet Another Flat Format) — бинарный формат сериализации данных для высоконагруженных сервисов, позволяющий читать данные без их декомпрессии. Формат построен как надстройка над Protobuf. Внедрённый в рекламную рекомендательную систему Яндекса, YaFF снизил нагрузку на CPU на 10–20% при обработке сотен тысяч запросов в секунду, сэкономив компании почти 500 миллионов рублей. Почему это важно: Формат, снижающий накладные расходы на CPU на 10–20% при ML-инференсе, напрямую применим к инфраструктуре LLM-инференса. Открытие исходного кода позволяет российской ML-экосистеме извлечь из этого пользу.

VK публикует прогноз российского рынка AI-программного обеспечения: 95 миллиардов рублей к 2030 году

VK AI — Thu, 18 Jun 2026 00:00:00 +0000

На VK Cloud Conf 2026 (17 июня 2026) VK представил исследование, согласно которому российский рынок AI-программного обеспечения в 2025 году достиг 25 миллиардов рублей и, по прогнозам, вырастет почти вчетверо — до 94,8 миллиарда рублей к 2030 году при CAGR 30,5%. AI-платформы были определены как наиболее быстрорастущий сегмент с годовым ростом 50%. Почему это важно: Наиболее актуальная официальная оценка размера рынка для российской AI-отрасли, дающая контекст конкурентной среды, в которой работают Яндекс, Сбер, MTS AI и VK.

Вмешательства SAE ненадёжны: подавленное поведение восстанавливается после интервенции

Hong Kong Polytechnic University — Thu, 18 Jun 2026 00:00:00 +0000

Статья оспаривает ключевое допущение механистической интерпретируемости на основе SAE: что зажим или подавление признаков разреженного автоэнкодера надёжно контролирует поведение модели. Авторы показывают, что подавленное поведение, как правило, восстанавливается после интервенции, подрывая надёжность SAE-управления как механизма безопасности или контроля. Почему это важно: Ставит критически важный вопрос перед сообществом интерпретируемости: если подавление признаков SAE не обеспечивает устойчивое предотвращение поведений, то подходы к выравниванию на основе управления через SAE могут быть менее надёжными, чем предполагалось.

OpenCode v1.17.8: ускорение таймлайнов сессий и совместимость с MCP

SST — Thu, 18 Jun 2026 00:00:00 +0000

OpenCode v1.17.8 (17 июня 2026) значительно ускоряет загрузку таймлайнов сессий и устраняет мерцание и прыжки при прокрутке. MCP-инструменты теперь корректно работают с провайдерами, применяющими более строгую валидацию JSON-схем. Длительные MCP-операции поддерживают активную обработку тайм-аута вместо молчаливого сброса. Почему это важно: OpenCode достиг 160K+ звёзд на GitHub и 7.5M активных разработчиков в месяц, что делает улучшения совместимости с MCP широко значимыми для команд, интегрирующих собственные MCP-серверы.

OpenAI запускает Scheduled Tasks в ChatGPT и прекращает поддержку Pulse

OpenAI — Thu, 18 Jun 2026 00:00:00 +0000

17 июня 2026 года OpenAI выпустил обновлённую функцию Scheduled Tasks в ChatGPT: пользователи получили отдельную страницу Scheduled в боковой панели для создания повторяющихся задач и задач мониторинга, управления ими, приостановки и возобновления. Задачи могут выполнять поиск в интернете и подключённых приложениях, уведомляя пользователей только при значимых изменениях. Обновление выводит из эксплуатации Pulse — проактивные ежедневные сводки ChatGPT — предоставив Pro-пользователям 14 дней на миграцию. Почему это важно: Scheduled Tasks — наиболее явный шаг OpenAI в сторону постоянной автономной автоматизации задач внутри ChatGPT, что напрямую конкурирует со специализированными AI-агентными сервисами.

OpenAI Codex CLI v0.141.0: зашифрованные каналы удалённого выполнения

OpenAI — Thu, 18 Jun 2026 00:00:00 +0000

Codex CLI v0.141.0 (18 июня 2026) поставляется с аутентифицированными end-to-end зашифрованными Noise-relay-каналами для удалённых исполнителей, заменяя прежний неаутентифицированный relay. Кросс-платформенное удалённое выполнение теперь сохраняет нативные рабочие директории и оболочки. Включает автоматическое восстановление SQLite при повреждениях и оптимизации памяти через кэширование поиска инструментов и дедупликацию запросов для длинных сессий. Почему это важно: Зашифрованные Noise-relay-каналы закрывают существенный пробел в безопасности для команд, запускающих Codex против удалённых или облачных рабочих пространств.

Midjourney разворачивается в медицинское оборудование с полнотелым ультразвуковым сканером

Midjourney — Thu, 18 Jun 2026 00:00:00 +0000

18 июня 2026 года CEO Midjourney David Holz анонсировал Midjourney Medical — новое подразделение, разрабатывающее сканер Ultrasonic Computational Tomography для всего тела с использованием 8 960 ультразвуковых преобразователей. Устройство не производит излучения, выполняет сканирование примерно за 60 секунд и, по заявлениям, в 10 раз дешевле и в 60 раз быстрее МРТ. Midjourney планирует открыть флагманскую клинику в Сан-Франциско в 2027 году и развернуть 50 000 сканеров по всему миру за шесть лет. Почему это важно: Радикальный поворот от генерации AI-изображений к медицинскому оборудованию одним из наиболее узнаваемых потребительских AI-брендов, сигнализирующий об амбициях компании далеко за пределами творческих инструментов.

Midjourney запускает Draft mode для V8.1 с сеткой исследования из 24 изображений

Midjourney — Thu, 18 Jun 2026 00:00:00 +0000

16 июня 2026 года Midjourney выпустил Draft mode для модели V8.1. Каждая генерация производит 24 изображения с разрешением 512×512 пикселей, используя 0,4 GPU-минуты на промпт — вдвое дешевле стандартного SD-задания. Пользователи могут нажать «Vary» на любом черновике для апскейла до полного качества. Обновление также ввело флаг --preview для тестирования ранних версий моделей. Почему это важно: Draft mode существенно снижает стоимость итерации промптов на самой мощной модели Midjourney, делая высокообъёмное творческое исследование практичным для профессиональных пользователей и студий.

Kairos: полноценный стек мировых моделей для физического AI

ACE Robotics — Thu, 18 Jun 2026 00:00:00 +0000

Kairos — полностековая архитектура мировых моделей для физического AI, включающая Cross-Embodiment Data Curriculum (открытое видео → поведение человека → взаимодействие робота) и механизм Hybrid Linear Temporal Attention с доказуемыми границами накопления ошибок. Модель с 4B параметров работает на устройстве в реальном времени и занимает первые места на четырёх бенчмарках воплощённого интеллекта, в том числе RoboTwin 2.0 (96,1%) и LIBERO-Plus. Почему это важно: 712 голосов на HuggingFace Daily — наивысший показатель среди статей от 18 июня. Первая мировая модель с открытым исходным кодом, замыкающая петлю восприятие–действие на устройстве без промежуточных задержек трансляции.

Grok 4.3 доступен на Amazon Bedrock с контекстным окном 1 млн токенов

xAI — Thu, 18 Jun 2026 00:00:00 +0000

17 июня 2026 года Grok 4.3 от xAI стал общедоступен через Amazon Bedrock. Модель поддерживает контекстное окно в 1 миллион токенов, настраиваемое усилие рассуждений (none/low/medium/high) и нативный ввод видео. Стоимость на Bedrock: $1.25/млн входных токенов и $2.50/млн выходных. Модель работает на Mantle — новом инференс-движке Amazon — и поддерживает вызов инструментов, структурированный вывод и стриминг. Почему это важно: Доступность на Bedrock выводит Grok 4.3 на одну из наиболее широко используемых корпоративных облачных AI-платформ, предоставляя разработчикам AWS доступ к модели с рассуждениями и контекстом 1M токенов в рамках существующей инфраструктуры IAM и VPC.

GitHub Copilot App стал общедоступным

GitHub — Thu, 18 Jun 2026 00:00:00 +0000

17 июня 2026 года автономное десктопное приложение GitHub Copilot достигло статуса общей доступности для macOS, Windows и Linux. Приложение строится на параллельных агентных сессиях — каждая сессия запускается в изолированном git-worktree — и Canvases: двунаправленных поверхностях для совместной работы разработчиков и агентов над общими планами, терминалами и pull request-ами. Облачные автоматизации позволяют планировать повторяющиеся агентные задачи без локальной машины. Agent Merge автоматизирует прогрессию PR через CI и циклы ревью. Почему это важно: Это знаменует переход GitHub от Copilot как IDE-плагина к Copilot как полноценной агентной платформе. Запуск изолированных сессий в отдельных worktree обеспечивает настоящую параллельную агентную работу над разными фичами или баг-фиксами одновременно.

Gemini CLI прекращает работу 18 июня, заменяясь Antigravity CLI

Google DeepMind — Thu, 18 Jun 2026 00:00:00 +0000

18 июня 2026 года Gemini CLI от Google прекратил обработку запросов для подписчиков Google AI Pro/Ultra и бесплатных пользователей, завершив переход на Antigravity CLI — агент-ориентированную платформу разработки, анонсированную на I/O 2026 в мае. Antigravity CLI переписан на Go для более быстрого выполнения, поддерживает асинхронные мультиагентные воркфлоу и заменяет хуки и расширения Gemini CLI новой моделью плагинов. Принципиально важно: Antigravity CLI не является открытым исходным кодом, в отличие от Gemini CLI под лицензией Apache 2.0. Почему это важно: Это принудительная миграция, затрагивающая всех бесплатных и потребительских пользователей Gemini CLI именно в день выхода этого дайджеста. Переход на закрытый исходный код и архитектурные различия создают существенные трудности для команд с автоматизацией, построенной на Gemini CLI.

DreamReasoner-8B: блоковый размерный curriculum для диффузионных reasoning-моделей

Thu, 18 Jun 2026 00:00:00 +0000

DreamReasoner-8B выявляет сбой обучения в блочных диффузионных LLM: большие размеры блоков существенно деградируют цепочки рассуждений. Статья вводит curriculum-обучение по размеру блоков — переход от малых к большим блокам в процессе обучения — и получает модель, конкурирующую с Qwen3-8B на математических бенчмарках и бенчмарках рассуждений по коду. Почему это важно: Выявляет фундаментальное несоответствие между обучением и инференсом в парадигме диффузионных LM и предлагает принципиальное решение, позволяющее диффузионным моделям с открытым исходным кодом сравняться с ведущими авторегрессионными моделями в задачах рассуждений.

Diffusion-Proof: формальное доказательство теорем с помощью диффузионных языковых моделей

Thu, 18 Jun 2026 00:00:00 +0000

Diffusion-Proof — первое применение диффузионных языковых моделей к формальной математике: dLLM-Prover-7B (полная генерация доказательств) в связке с dLLM-Corrector-7B (двунаправленная коррекция доказательств через infilling). Система достигает +1,61% на ProofNet-Test и +6,14% на MiniF2F-Test относительно базовых моделей и решает задачу IMO, которую DeepSeek-Prover-V2-7B не смог решить. Почему это важно: Демонстрирует, что диффузионные LLM способны превосходить авторегрессионные модели в формальном доказательстве теорем, где накопление ошибок на уровне токенов особенно критично.

Cursor 3.7: облачные dev-окружения и субагенты /in-cloud

Cursor — Thu, 18 Jun 2026 00:00:00 +0000

Cursor 3.7 (17 июня 2026) представляет настройку облачных окружений — конфигурирование воспроизводимой среды разработки в облаке менее чем за 10 минут через общую терминальную сессию с созданием переиспользуемого снапшота. Команда `/in-cloud` запускает изолированные субагенты на облачных VM для длительных или параллельных задач, таких как исправление CI и исследование кодовой базы. Команда `/babysit` позволяет облачным агентам итерировать над PR удалённо. Почему это важно: Субагенты на облачных VM решают ключевую проблему: длительные агентные задачи больше не блокируют локальное рабочее пространство разработчика. Переиспользуемый снапшот окружения снижает накладные расходы на холодный старт для повторных агентных запусков.

Claude Code v2.1.181: встроенный синтаксис /config и обновление Bun 1.4

Anthropic — Thu, 18 Jun 2026 00:00:00 +0000

Claude Code v2.1.181 (17 июня 2026) добавляет синтаксис `/config key=value` для задания любых параметров конфигурации в строке, переменную окружения CLAUDE_CLIENT_PRESENCE_FILE для подавления мобильных push-уведомлений и обновляет встроенный runtime Bun до версии 1.4. Стриминг длинных абзацев теперь выполняется построчно. Среди исправлений — обрыв записи файлов на сетевых дисках, кэширование промптов с пользовательским ANTHROPIC_BASE_URL и проблемы с правами sandbox в macOS. Почему это важно: Встроенный синтаксис /config снижает трение при переключении параметров модели в ходе сессии. Исправление записи на сетевые диски устраняет баг потери данных для пользователей NFS/SMB-монтирований.

Black Forest Labs выпускает FLUX.2 с мультиреференсным кондиционированием и выходом 4 МП

Black Forest Labs — Thu, 18 Jun 2026 00:00:00 +0000

Около 16 июня 2026 года Black Forest Labs выпустил семейство FLUX.2. Ключевые возможности: мультиреференсное кондиционирование (генерация согласованных вариаций из нескольких референсных входов), вывод до 4 мегапикселей, улучшенный рендеринг текста и более точная физика освещения реального мира. NVIDIA выступила партнёром, предоставив FP8-квантизации и оптимизации для ComfyUI, снизив требования к VRAM на 40% и улучшив производительность инференса на 40%. Веса FLUX.2-dev доступны на Hugging Face под открытой лицензией. Почему это важно: Функция мультиреференса FLUX.2 и потолок в 4 МП делают его прямым конкурентом Midjourney V8.1 и GPT-Image в профессиональных дизайнерских воркфлоу, тогда как доступность открытых весов сохраняет возможность самостоятельного хостинга и дообучения.

Anthropic открывает офис в Сеуле и объявляет о партнёрствах в корейской AI-экосистеме

Anthropic — Thu, 18 Jun 2026 00:00:00 +0000

17 июня 2026 года Anthropic открыл офис в Сеуле — третий в Азиатско-Тихоокеанском регионе после Токио и Бенгалуру — назначив KiYoung Choi представительным директором. Одновременно были объявлены корпоративные внедрения с NAVER, Samsung SDS, LG CNS, Nexon и Hanwha Solutions, исследовательское партнёрство с консорциумом Национальной лаборатории AI-исследований (KAIST, Korea University, POSTECH, Yonsei), а также запуск Claude for Startups в Корее. Почему это важно: Открытие сеульского офиса свидетельствует об углублении присутствия Anthropic на рынке Азиатско-Тихоокеанского региона и впервые фиксирует масштабное внедрение Claude Code внутри крупных корейских конгломератов (NAVER, Samsung, LG).

ZPPO: дистилляция знаний через учителя-в-промптах превосходит градиентные методы для малых моделей рассуждений

NVIDIA — Wed, 17 Jun 2026 00:00:00 +0000

Zone of Proximal Policy Optimization (ZPPO, arXiv 2606.18216) встраивает руководство учителя в промпты, а не в градиенты: формируются промпты, попарно сопоставляющие правильные ответы учителя с неверными ответами студента для контрастивного обучения, и промпты, агрегирующие ошибки студента для выявления паттернов неудач. Тестирование на моделях-студентах 0,8B–9B с учителем на 27B показало, что ZPPO превосходит бейзлайны дистилляции и RL — с наибольшим выигрышем для меньших моделей. Почему это важно: Лидер HuggingFace Daily Papers за 17 июня (27 голосов). Подход «промпт как учитель» предлагает лёгкую альтернативу градиентной дистилляции для пост-тренировки малых моделей рассуждений.

Zhipu AI открывает GLM-5.2 под лицензией MIT с контекстом 1M токенов

Zhipu AI — Wed, 17 Jun 2026 00:00:00 +0000

Zhipu AI опубликовала открытые веса GLM-5.2 на HuggingFace под лицензией MIT около 16 июня 2026 года. Модель построена на архитектуре MoE с 753B параметрами, поддерживает контекстное окно в 1 миллион токенов, ориентирована прежде всего на написание кода и оснащена двойной системой управления усилием мышления — без региональных ограничений. Репозиторий: zai-org/GLM-5.2. Почему это важно: Открытый релиз под MIT без каких-либо ограничений флагманской MoE-модели уровня frontier с 753B параметрами и контекстом 1M токенов — прямой конкурент ведущих закрытых моделей для корпоративных задач длительного агентного программирования в глобальном масштабе.

xAI переводит Grok Imagine Video 1.5 в общий доступ

xAI — Wed, 17 Jun 2026 00:00:00 +0000

xAI перевела Grok Imagine Video 1.5 из режима предварительного просмотра в общий доступ 16 июня, развернув модель через Imagine API, а также на grok.com и в мобильных приложениях. Модель анимирует статические изображения в видео с разрешением 720p/24fps с нативным аудио. Video 1.5 Fast генерирует 6-секундные клипы примерно за 25 секунд (против 40+ секунд в v1.0), ранее возглавив лидерборд Image-to-Video Arena с отрывом в 52 балла Elo. Почему это важно: Модель xAI с лучшим рейтингом в категории image-to-video становится широко доступной для потребителей и через API, напрямую конкурируя с Veo и Runway при заметно более высокой скорости генерации.

xAI запускает Grok для PowerPoint как бесплатный плагин Microsoft 365

xAI — Wed, 17 Jun 2026 00:00:00 +0000

xAI выпустила бесплатный плагин Microsoft 365, интегрирующий Grok в PowerPoint, 16 июня. Пользователи могут генерировать полные слайд-деки из текстовых запросов, реструктурировать слайды и применять оформление на естественном языке. Плагин подключается к актуальным данным X и веб-поиску, а также может обращаться к SharePoint, электронной почте и Google Drive через коннекторы Grok. PowerPoint — первое приложение Office; интеграции с Word и Excel запланированы. Почему это важно: Первый плацдарм xAI внутри корпоративной экосистемы Microsoft Office: Grok вступает в прямую конкуренцию со встроенными функциями Microsoft Copilot для сотрудников, работающих с документами.

vLLM v0.23.0: Model Runner V2 по умолчанию для Llama и Mistral, Transformers v5, многоуровневый KV-кэш

Wed, 17 Jun 2026 00:00:00 +0000

vLLM v0.23.0 (15 июня, 408 коммитов, 200 контрибьюторов) устанавливает Model Runner V2 в качестве режима по умолчанию для плотных моделей Llama и Mistral, добавляет совместимость с Transformers v5, многоуровневое вытеснение KV-кэша со вторичным хранилищем на основе объектного хранилища, унифицированный парсер для рассуждений и вызовов инструментов, поддержку Gemma 4 без энкодера, а также улучшения Rust-фронтенда — потоковую генерацию и динамическую LoRA. Включает также усиление стабильности DeepSeek-V4 в продакшне и обновления ROCm 7.2.3 / FlashInfer v0.6.12. Почему это важно: Расширение MRv2 на Llama и Mistral охватывает два наиболее широко развёртываемых семейства открытых моделей и устраняет пузыри при параллелизме по конвейеру. Унифицированный парсер упрощает интеграцию для рабочих процессов с вызовами инструментов и рассуждениями.

VibeThinker-3B достигает показателей frontier-уровня на бенчмарках рассуждений через curriculum RL

WeiboAI — Wed, 17 Jun 2026 00:00:00 +0000

VibeThinker-3B (arXiv 2606.16140, 15 июня) достигает 94,3 на AIME26 (97,1 при масштабировании тестового времени), 80,2 Pass@1 на LiveCodeBench v6 и 96,1% принятых решений на незнакомых контестах LeetCode — с применением curriculum SFT, многодоменного RL и офлайн-самодистилляции на плотной модели с 3B параметрами. Авторы предлагают Гипотезу параметрического сжатия и покрытия: рассуждения компрессируются в компактные модели, тогда как широкие фактические знания требуют большего числа параметров. Почему это важно: 713 голосов на HuggingFace Daily Papers. Модель с 3B параметрами, сопоставимая или превосходящая значительно более крупные системы на бенчмарках по математике и коду, ставит под сомнение базовые предположения о требованиях к масштабу для frontier-рассуждений — значительные последствия для стоимости инференса и развёртывания на граничных устройствах.

Ollama v0.30.9: поддержка Cohere2Moe, исправлен баг с одиночным токеном в coding-агентах

Wed, 17 Jun 2026 00:00:00 +0000

Ollama v0.30.9 (15 июня) добавляет поддержку архитектуры Cohere2Moe, исправляет парсер LFM2 для случаев, когда мышление не было эмитировано, и устраняет баг, при котором coding-агенты, вызываемые через Ollama, выдавали только один токен. Добавлена явная ошибка при превышении контекстного окна одним сообщением. Почему это важно: Баг с одиночным токеном напрямую блокировал работу Claude Code и аналогичных coding-агентов локально через Ollama — исправление разблокирует сетапы разработчиков с приоритетом локального запуска.

llama.cpp, сборки от 16 июня: спекулятивное декодирование Eagle3, память Vulkan UMA, исправления NVFP4

Wed, 17 Jun 2026 00:00:00 +0000

llama.cpp выпустила инкрементальные сборки b9660–b9672 16 июня. Ключевые изменения: поддержка спекулятивного декодирования Eagle3 в бэкенд-сэмплере (b9669), предпочтение Vulkan к host-visible памяти на UMA-устройствах (b9668), исправления граничных случаев NVFP4 в llama-graph (b9670), поддержка SYCL для Q4_K/Q5_K/Q6_K MoE MUL_MAT_ID (b9664), обновление вендорской копии BoringSSL до 0.20260616.0 (b9672). Почему это важно: Спекулятивное декодирование Eagle3 в бэкенд-сэмплере распространяет самую быструю технику локального инференса на большее число аппаратных конфигураций. Оптимизация Vulkan UMA выгодна для встроенных GPU и устройств с унифицированной памятью Apple.

JoyAI-VL-Interaction: открытая VLM на 8B для взаимодействия в реальном времени с автономным управлением очередью речи

JD.com — Wed, 17 Jun 2026 00:00:00 +0000

JoyAI-VL-Interaction (arXiv 2606.14777) — VLM на 8B для непрерывного взаимодействия с видеопотоком в реальном времени: модель наблюдает за живым видеопотоком и автономно решает, когда говорить, а когда молчать. Выпущена вместе с рецептом обучения, временно-выровненными данными взаимодействия и полностью развёртываемой открытой системой (подключаемые ASR/TTS, память, API фонового агента). Люди-оценщики предпочли её ассистентам Doubao и Gemini в шести реальных сценариях. Почему это важно: 223 голоса на HuggingFace Daily Papers. Одна из первых 8B-моделей для всегда-включённого видеопотока с автономным управлением очередью речи — ближе к ассистенту реального времени, чем к чат-боту, с полным открытым релизом (модель + данные + система).

Google DeepMind и правительство Великобритании объединяются для ускорения жилищного планирования с помощью Gemini

Google DeepMind — Wed, 17 Jun 2026 00:00:00 +0000

Google DeepMind объявила о партнёрстве с правительством Великобритании 16 июня для создания прототипа ИИ-системы для офицеров по планированию — с целью сократить время обработки заявок на жильё на 50%. Инструмент на базе Gemini автоматизирует консолидацию данных, идентификацию политик, обобщение отзывов и генерацию черновиков отчётов. Испытания пройдут в советах Barnet, Camden и Dorset, после чего запланировано общенациональное развёртывание в 2027 году. Почему это важно: Развёртывание Gemini в масштабах государственного сектора для публичных услуг, связанное с целью Великобритании построить 1,5 млн жилых единиц, — демонстрация применения ИИ к резонансному политическому узкому месту с явными механизмами подотчётности.

Исследование Anthropic: успех в агентном программировании определяется экспертизой в предметной области, а не навыками программирования

Anthropic — Wed, 17 Jun 2026 00:00:00 +0000

Anthropic опубликовала анализ ~400 000 сессий Claude Code от ~235 000 пользователей (октябрь 2025 — апрель 2026). Главный предиктор успеха — доменная экспертиза, а не опыт программирования: сессии экспертов завершаются успехом в 30%+ случаев против 15% у новичков; специалисты вне сферы IT (юристы, финансисты, управленцы) достигают почти тех же показателей, что и инженеры. Средняя ценность задачи выросла примерно на 27% за 7 месяцев по мере смещения акцентов с отладки к развёртыванию, анализу данных и написанию документов. Почему это важно: Крупномасштабные эмпирические данные о том, что инструменты агентного программирования снижают барьеры входа за пределы круга программистов — доменные знания важнее навыков кодирования. Выводы имеют прямое отношение к трансформации рынка труда и корпоративному внедрению ИИ.

Alibaba выпускает Qwen-RobotSuite: три базовых модели для воплощённого ИИ

Alibaba / Qwen — Wed, 17 Jun 2026 00:00:00 +0000

Команда Qwen компании Alibaba выпустила Qwen-RobotSuite 16–17 июня 2026 года: Qwen-RobotManip (VLA для управления манипуляторами, обученная на 38 100+ часах данных), Qwen-RobotNav (навигация и следование инструкциям) и Qwen-RobotWorld (мировая модель для физически согласованных будущих состояний). RobotManip и RobotNav поставляются с открытыми репозиториями на GitHub. Почему это важно: Первый открытый набор базовых моделей воплощённого ИИ от Alibaba, охватывающий манипуляцию, навигацию и моделирование мира — с открытыми GitHub-репозиториями для немедленного дообучения под различные робототехнические платформы.

OpenClaw v2026.6.8-beta.2: поддержка GLM-5.2 и Claude Haiku 4.5, расширенное форматирование в Telegram

OpenClaw — Tue, 16 Jun 2026 00:00:00 +0000

OpenClaw v2026.6.8-beta.2 (16 июня 2026) добавляет поддержку моделей GLM-5.2 и Claude Haiku 4.5 и унифицирует идентификаторы моделей с указанием провайдера для OpenRouter и Google Vertex. Доставка в Telegram теперь поддерживает структурированный rich text — таблицы, списки и разворачиваемые блок-цитаты — с сохранением намеренных переносов строк. В WhatsApp добавлена настройка привязок ACP. Улучшено восстановление агентов и шлюзов при отправке DM, завершении медиазапросов, обработке авто-ответов, перезапусках сессий и операциях субагентов. В интерфейсе добавлены сворачиваемые файлы рабочего пространства, улучшена стабильность обратной прокрутки в WebChat и исправлено переподключение шлюза на iOS. Почему это важно: OpenClaw — ведущая платформа автономных агентов с открытым кодом, распространяемая через мессенджеры. Добавление GLM-5.2 рядом с Claude Haiku 4.5 расширяет охват моделей за счёт продуктов китайских лабораторий. Расширенное форматирование в Telegram закрывает давний пробел для команд, использующих Telegram как интерфейс агента.

OpenAI запускает партнёрскую сеть с инвестициями $150 млн

OpenAI — Tue, 16 Jun 2026 00:00:00 +0000

OpenAI официально представила OpenAI Partner Network 14–15 июня 2026 года — формальную глобальную партнёрскую программу с бюджетом $150 млн, ориентированную на консалтинговые компании, системных интеграторов и технологических специалистов. Программа включает три уровня — Select, Advanced и Elite — и ставит цель сертифицировать 300 000 консультантов к концу 2026 года. В числе партнёров-основателей — Accenture, BCG, Bain, PwC и QuantumBlack от McKinsey. OpenAI представила инициативу в контексте тезиса о том, что узким местом для получения ценности от корпоративного AI сегодня является уже не возможности моделей, а внедрение и перестройка рабочих процессов. Почему это важно: Сигнализирует о стратегическом повороте OpenAI в сторону уровня корпоративных сервисов. Структурированная партнёрская экосистема со значительными инвестициями воспроизводит стратегии Salesforce и Microsoft, указывая на позиционирование OpenAI для долгосрочного захвата выручки за пределами платы за использование API.

OpenAI Codex CLI 0.140.0: отслеживание использования токенов, импорт из Claude Code и аутентификация Amazon Bedrock

OpenAI — Tue, 16 Jun 2026 00:00:00 +0000

Codex CLI 0.140.0 (15 июня 2026) включает дашборды активности токенов через представления /usage (дневное, недельное, накопленное), удаление сессий с подтверждением через команды codex delete и /delete, а также команду /import для чтения конфигураций проектов Claude Code. Добавлена поддержка аутентификации Amazon Bedrock API с зашифрованным локальным хранением учётных данных. Единое меню @ упоминаний заменяет разрозненные точки входа для инъекции контекста. Также исправлены: автовосстановление повреждённых SQLite, краши /review, проблемы надёжности MCP-серверов и ошибки установки плагинов. Почему это важно: Команда /import для конфигураций Claude Code значительно снижает порог переключения между агентами для написания кода или их сравнения. Поддержка Bedrock охватывает корпоративные команды, использующие модели на базе AWS вместо прямого API OpenAI. Дашборды использования токенов отвечают на давний запрос активных пользователей, управляющих затратами в агентных сессиях.

NVIDIA SkillSpector: сканер безопасности с открытым кодом для скиллов AI-агентов

NVIDIA — Tue, 16 Jun 2026 00:00:00 +0000

NVIDIA выпустила SkillSpector (13 июня 2026) — сканер безопасности с открытым кодом, созданный специально для скиллов AI-агентов. Инструмент проверяет 64 паттерна уязвимостей в 16 категориях, охватывая как традиционные программные риски, так и специфичные для агентов — инъекции промптов, небезопасная обработка данных и логические уязвимости. Инструмент основан на рекомендациях OWASP LLM и MITRE ATLAS. Сопутствующий аудит Snyk по 3 984 скиллам выявил, что 26,1% содержат уязвимости, а 5,2% демонстрируют признаки вредоносного умысла, включая 1 467 вредоносных payload-ов: трояны, криптомайнеры и сборщики учётных данных. Репозиторий доступен на github.com/NVIDIA/SkillSpector. Почему это важно: По мере роста маркетплейсов скиллов для агентов — в том числе для Claude Code и OpenClaw — безопасность цепочки поставок скиллов становится реальной поверхностью атаки. SkillSpector — первый специализированный стандартизированный инструмент для этой проблемы, аналог того, что Snyk делает для зависимостей пакетов. Институциональная поддержка NVIDIA даёт ему шансы стать стандартным шагом аудита в пайплайнах развёртывания агентов.

Память реконструируется, а не извлекается: графовая память улучшает запоминание у LLM-агентов на 23%

National University of Singapore — Tue, 16 Jun 2026 00:00:00 +0000

MRAgent заменяет стандартную парадигму «сначала извлечь, потом рассуждать» активной реконструкцией: память агента хранится в виде графа Cue-Tag-Content, где ассоциативные теги выступают семантическими мостами. При инференсе агент итеративно исследует и отсекает пути извлечения, руководствуясь промежуточными рассуждениями, что позволяет избежать комбинаторного взрыва. На бенчмарках LoCoMo и LongMemEval MRAgent достигает улучшения до 23% по сравнению с сильными базовыми методами извлечения. Почему это важно: Статическое извлечение (поиск по эмбеддинг-сходству) даёт сбой, когда нужная память зависит от того, что агент уже вывел в ходе задачи. Объединяя рассуждения LLM непосредственно с обходом памяти, эта работа устраняет фундаментальное узкое место для долгосрочных агентных задач и предлагает граф-структурированную память как более надёжную альтернативу плоским векторным хранилищам.

Kimi K2.7-Code HighSpeed: рост производительности в 6× для продакшн-пайплайнов агентов по коду

Moonshot AI — Tue, 16 Jun 2026 00:00:00 +0000

15 июня 2026 года Moonshot AI анонсировала вариант HighSpeed для Kimi K2.7-Code, доступный пользователям Kimi Code Beta и Kimi Business. Режим HighSpeed обеспечивает около 180 токенов/с на задачах медианной длины и до 260 токенов/с на коротких — примерно в шесть раз быстрее стандартного релиза. Базовая модель K2.7-Code (MoE с 1 трлн параметров, 32B активных, контекст 256K) вышла 12 июня и показала +21,8% на Kimi Code Bench v2 и примерно на 30% меньше токенов при рассуждении по сравнению с K2.6. Почему это важно: При цене около $0,95 за миллион входных токенов и открытых весах для самостоятельного хостинга Kimi K2.7-Code HighSpeed напрямую атакует узкое место по пропускной способности в продакшн-пайплайнах агентов по коду — где скорость генерации токенов ограничивает количество итераций агента в единицу времени.

FastContext: специализированный субагент-исследователь сокращает использование токенов агентами по коду на 60%

Microsoft / Shanghai Jiao Tong University — Tue, 16 Jun 2026 00:00:00 +0000

FastContext отделяет исследование репозитория от решения задач в LLM-агентах для работы с кодом, вводя специализированный субагент-исследователь (4B–30B параметров), который выполняет параллельные вызовы инструментов read/glob/grep и возвращает компактные ссылки на пути к файлам и диапазоны строк основному решателю. Обучение включает supervised fine-tuning с последующим обучением с подкреплением на задачах. Интегрированный в Mini-SWE-Agent, FastContext улучшает показатели решения задач до 5,5 процентных пунктов на SWE-bench Multilingual, SWE-bench Pro и SWE-QA, сокращая при этом использование токенов основным агентом до 60%. Почему это важно: Навигация по репозиторию — крупная скрытая статья затрат в современных агентах для работы с кодом: модели тратят значительную часть контекстного окна только на поиск нужных файлов. Подход FastContext с разделением ответственности показывает, что специализированная малая модель справляется с исследованием значительно эффективнее монолитного решателя. 152 голоса на HuggingFace Daily Papers.

DreamX-World 1.0: интерактивная модель мира общего назначения с управлением камерой 6DoF

AMAP-ML (Alibaba Maps AI Lab) — Tue, 16 Jun 2026 00:00:00 +0000

DreamX-World — интерактивная модель мира общего назначения, генерирующая разнообразные высококачественные миры по текстовым или графическим промптам и позволяющая пользователям или агентам исследовать их с помощью управления камерой 6DoF в стиле WASD. Обученная на смеси данных Unreal Engine, игрового видеозаписи и видео реального мира, модель поддерживает генерацию в разрешении 720P длительностью до 7,5 секунд на клип и долгосрочные роллауты до одной минуты. Под лицензией Apache 2.0 выпущены два варианта: DreamX-World-5B-Cam (двунаправленный, 5 с) и DreamX-World-5B (авторегрессионный, долгосрочный). Почему это важно: Одна из первых открыто опубликованных интерактивных моделей мира общего назначения, способных реагировать на точное управление камерой и событиями в помещениях, городских, природных, фантастических и игровых сценах. 264 голоса на HuggingFace Daily Papers свидетельствуют о высоком интересе сообщества. Сочетание обучения на основе RL с памятью на основе геометрии повышает практичность моделей мира как симуляционных сред для агентов.

Claude Code 2.1.178: параметризованные правила разрешений и вложенные скиллы

Anthropic — Tue, 16 Jun 2026 00:00:00 +0000

Claude Code версии 2.1.178 (15 июня 2026) добавляет синтаксис Tool(param:value) для правил разрешений, позволяющий точно сопоставлять входные параметры инструментов с поддержкой wildcard — например, Agent(model:opus) может блокировать именно субагентов на Opus. Вложенные директории .claude/skills теперь загружаются автоматически при работе в соответствующих директориях, а конфликты имён разрешаются через пространства имён :. Режим Auto теперь выполняет проверку классификатором перед запуском субагентов, чтобы предотвратить делегирование заблокированных действий. Среди исправлений — OOM-краши из-за устаревших переменных окружения с файловыми дескрипторами, несоответствия OAuth-аккаунтов в Chrome, обработка транскриптов субагентов, резервная модель компактизации и закрытие CJK IME в VSCode. Почему это важно: Параметризованный синтаксис разрешений — существенное улучшение эргономики для команд, применяющих политики выбора модели в агентных пайплайнах: контроль затрат и безопасности переходит от грубой блокировки моделей к точечным правилам на уровне параметров. Наследование вложенных скиллов по принципу «ближайшая директория побеждает» делает монорепозитории с несколькими проектами удобными в работе без лишних запросов на разрешения.

Яндекс Дропс — первый российский AI-носимый гаджет с Alice AI — поступает в розничные магазины

Yandex — Mon, 15 Jun 2026 00:00:00 +0000

Яндекс Дропс (Yandex Drops) — TWS-наушники, позиционируемые как первое в России AI-носимое устройство — поступили в продажу эксклюзивно через интерфейс чата Alice AI 9 июня 2026 года, а 16 июня начали появляться в розничных магазинах России, Казахстана и Беларуси; в Узбекистане продажи стартуют 30 июня. Наушники работают с полноценной голосовой моделью Alice AI, эквивалентной чат-версии, обеспечивая взаимодействие с Alice без использования телефона. Функция «Моя память» — первоначально доступная исключительно владельцам Drops — преобразует голосовые заметки в структурированные напоминания на основе AI. Розничная цена: 8 990 рублей. Почему это важно: Яндекс стал первой крупной российской AI-лабораторией, выпустившей потребительское устройство с тесной интеграцией в стек LLM. Распространение устройства сначала через интерфейс AI-чата — нестандартный эксперимент с каналом продаж. Эксклюзивная функция «Моя память» знаменует первый продукт с персистентной памятью для конечных пользователей в экосистеме Alice AI, расширяя экосистему YandexGPT в сферу ambient computing.

OpenCode v1.17.7: MCP-серверы теперь получают контекст корня рабочего пространства

SST — Mon, 15 Jun 2026 00:00:00 +0000

SST выпустил OpenCode v1.17.7 14 июня. Ключевое изменение: MCP-серверы теперь получают текущее рабочее пространство как корневой контекст клиента, что позволяет серверам принимать решения с учётом проекта без ручной настройки путей. Также в v1.17.7: плагин-клиенты переиспользуют активные серверы вместо обращения к порту по умолчанию; ACP shell tool calls теперь отображают команду и рабочую директорию с начала вывода; маршруты новых сессий остаются привязаны к собственному черновому серверу. Ранее на этой неделе v1.17.0 (10 июня) стал крупным релизом, добавив поддержку Desktop на базе WSL, файловый поиск на основе fff для ускоренной навигации по монорепозиториям и поддержку модели Cohere North. Почему это важно: Изменение с передачей корня рабочего пространства в MCP — наиболее значимое для разработчиков: авторы MCP-серверов теперь могут создавать контекстно-зависимые инструменты, автоматически адаптирующиеся к активному проекту, что устраняет шаблонную конфигурацию для каждого проекта. OpenCode служит основной open-source альтернативой Cursor и Claude Code с подключением к 75+ AI-провайдерам.

Codex App 26.609 от OpenAI добавляет Developer Mode с доступом к Chrome DevTools Protocol

OpenAI — Mon, 15 Jun 2026 00:00:00 +0000

Codex app 26.609 (выпущен 11 июня) представил режим Developer mode для Browser Use, открывающий прямой доступ к Chrome DevTools Protocol для инспекции и скриптинга браузерных сессий — переход от закрытого браузерного драйвера к прозрачному управляемому слою. В релизе также добавлено накопление сброса rate-limit для подписчиков Plus и Pro, команда /init для инструкций на уровне проекта в composer, а также расширенная доступность Computer Use для дополнительных Enterprise-регионов. CLI 0.139.0 (того же цикла) добавил автономный веб-поиск в режиме кода и улучшил сохранение схем MCP-инструментов при межпровайдерных roundtrip-запросах. Почему это важно: CDP-доступ в Browser Use позволяет разработчикам автоматизировать, инспектировать и отлаживать веб-сессии так же, как это делает Chrome DevTools, — разблокируя сценарии веб-тестирования и скрейпинга, ранее требовавшие хрупких скриптов автоматизации. Команда /init закрывает давний запрос на персистентные инструкции проекта без перегрузки контекста.

Midjourney V8.1 становится моделью по умолчанию, заменяя V7 с нативным разрешением 2K

Midjourney — Mon, 15 Jun 2026 00:00:00 +0000

Midjourney перевёл V8.1 в статус модели по умолчанию 11 июня 2026 года, заменив V7. Обновление обеспечивает стандартную генерацию за 4 секунды и HD-генерацию за 12 секунд, нативное разрешение 2K в режиме HD (в 4 раза больше пикселей, чем у V7), улучшенное следование подсказкам и более качественный рендеринг текста на изображениях. V8.0 alpha будет выведен из эксплуатации в течение двух недель после выхода обновления. V8.1 доступен на всех уровнях подписки. Почему это важно: V8.1 теперь является моделью по умолчанию для всех пользователей Midjourney — она задаёт новый базовый уровень качества для массовой потребительской генерации изображений по тексту. Четырёхкратное увеличение числа пикселей в режиме HD и улучшенный рендеринг текста укрепляют преимущество Midjourney над конкурирующими платформами по качеству выходных данных на одну генерацию.

Сотрудники Anthropic проведут переговоры с Белым домом о приостановке доступа к Fable 5

Anthropic — Mon, 15 Jun 2026 00:00:00 +0000

После директивы об экспортном контроле от 12 июня, вынудившей Anthropic отключить Claude Fable 5 и Mythos 5 по всему миру, Axios сообщил 14 июня, что старшие технические специалисты Anthropic направятся в Вашингтон для встречи с чиновниками Белого дома. Philadelphia Inquirer охарактеризовал ситуацию как «возобновление конфликта администрации Трампа с Anthropic» из-за новейших моделей. В официальном заявлении Anthropic указала, что упомянутый в директиве джейлбрейк был узкоспециализированным и сопоставимым с уязвимостями всех фронтирных моделей, а применённый порог «фактически остановит выпуск всех новых моделей для всех провайдеров фронтирного уровня». Почему это важно: Активные переговоры на высоком уровне между Anthropic и Белым домом — первый случай, когда фронтирная AI-лаборатория напрямую взаимодействует с правительством, добиваясь отмены блокировки модели на основании экспортного контроля. Исход переговоров создаст прецедент для взаимодействия экспортного регулирования США с развёртыванием AI-моделей — с последствиями для всей отрасли.

Вступили в силу раздельная тарификация Agent SDK и вывод из эксплуатации моделей Sonnet 4 / Opus 4

Anthropic — Mon, 15 Jun 2026 00:00:00 +0000

15 июня одновременно вступили в силу два изменения, объявленных 14 мая. Первое: программное использование Claude — вызовы Agent SDK, подпроцессы `claude -p`, Claude Code GitHub Actions и автоматизации через сторонние SDK — теперь списывается из отдельного месячного кредитного пула по стандартным прейскурантным ценам API. Объём кредитов соответствует стоимости подписки: Pro $20/мес., Max 5× $100/мес., Max 20× $200/мес. Интерактивный Claude Code в терминале/IDE, веб-чат и Claude Cowork изменений не затронуло. Второе: версионированные идентификаторы моделей claude-sonnet-4-20250514 и claude-opus-4-20250514 были выведены из эксплуатации в 9:00 PT; API-запросы к этим идентификаторам возвращают ошибку. Рекомендуемые цели миграции — claude-sonnet-4-6 и claude-opus-4-8. Почему это важно: При исчерпании нового кредитного пула автоматизированные API-запросы немедленно завершаются с ошибкой без повторных попыток по rate-limit — команды, рассчитывавшие на паритет с подпиской в CI/CD или scheduled-агентах, теперь обязаны планировать бюджет отдельно либо переходить на прямые API-ключи. Жёстко прописанные идентификаторы устаревших моделей в продакшн-коде также требуют немедленного обновления во избежание сбоев.

Zhipu AI выпускает GLM-5.2: MoE с 744B параметрами, контекстом 1M токенов и фокусом на программирование

Zhipu AI — Sun, 14 Jun 2026 00:00:00 +0000

Zhipu AI (Z.ai) выпустила GLM-5.2 13 июня 2026 года, развернув модель на всех уровнях тарифного плана GLM Coding Plan (Lite, Pro, Max). Построенная на архитектуре MoE с 744B параметрами и 40B активными параметрами, модель предлагает контекстное окно в 1 миллион токенов (идентификатор модели: glm-5.2[1m]) и максимальный вывод 131K токенов. Введена двухрежимная система глубины размышления (режимы High и Max), разработанная для долгосрочных агентных задач разработки ПО. Общий доступ по API, интеграция в чат-бот Z.ai и открытые веса под лицензией MIT запланированы на следующую неделю. Сторонних бенчмарков на момент запуска опубликовано не было. Почему это важно: GLM-5.2 усиливает вызов, который китайские open-source лаборатории бросают закрытым frontier-моделям: MIT-лицензированная модель для программирования с контекстом 1M токенов вышла в ту же неделю, когда две топовые модели Anthropic были отключены. 40B активных параметров MoE делают её развёртываемой на высокопроизводительных кластерах, а явный агентный фокус напрямую конкурирует с рабочими процессами Codex и Claude Code.

WeaveBench: агенты компьютерного использования проваливаются на гибридных задачах GUI+CLI — 41% успешных выполнений

Microsoft Research — Sun, 14 Jun 2026 00:00:00 +0000

WeaveBench включает 114 реальных задач, требующих от AI-агентов сочетания наблюдений/действий в GUI с операциями CLI и кода в единой траектории — первый бенчмарк, явно нацеленный на этот гибридный интерфейсный сценарий. Лучшая из существующих frontier-моделей достигает лишь 41,2% успешных выполнений на этих долгосрочных задачах. Опубликован на arXiv (2606.09426) с 95 апвоутами на HuggingFace Daily Papers. Почему это важно: Реальные компьютерные рабочие процессы постоянно переключаются между графическими интерфейсами и терминалом. WeaveBench — первый бенчмарк, требующий свободной гибридной работы в одной траектории, и он показывает, что даже frontier-агенты не справляются с более чем половиной реалистичных задач компьютерного использования. 95 апвоутов на HF Daily Papers.

OpenCode v1.17.5–v1.17.6: объявление возможностей MCP-клиента и OAuth для Snowflake

SST — Sun, 14 Jun 2026 00:00:00 +0000

SST выпустила два релиза OpenCode 13 июня 2026 года. В v1.17.6 формально объявляются поддерживаемые возможности MCP-клиента OpenCode — устанавливается стабильный ориентир совместимости для авторов MCP-серверов. В v1.17.5 добавлена внешняя OAuth-аутентификация в браузере для Snowflake Cortex (позволяет проходить аутентификацию без встраивания учётных данных), улучшено управление копиями проектов и потоки перемещения сессий в v2 API, реализовано восстановление просроченных MCP-сессий вместо отключения инструментов, структурированный вывод MCP-инструментов возвращается в читаемом виде, исправлены дублирующиеся renderable ID, способные нарушить отрисовку TUI. На уровне десктопного слоя обновлены цветовые темы oc-2 и улучшена обработка изменения размера терминала. Почему это важно: Объявление возможностей MCP-клиента в v1.17.6 даёт разработчикам MCP-серверов стабильный ориентир, снижая риск поломок из-за несовместимости протокола. OAuth для Snowflake Cortex делает OpenCode пригодным для корпоративных аналитических рабочих процессов без встраивания учётных данных.

Moonshot AI открывает тестирование Kimi Work: десктопный агент с роем из 300 субагентов и WebBridge

Moonshot AI — Sun, 14 Jun 2026 00:00:00 +0000

Moonshot AI открыла внутреннее тестирование Kimi Work 12 июня 2026 года — это загружаемое десктопное приложение для macOS/Windows, предназначенное для локального выполнения AI-агентов. Оно масштабируется до 300 параллельных субагентов, включает расширение браузера WebBridge, которое повторно использует существующие залогиненные браузерные сессии для автоматизации, поддерживает cron-расписание, доступ к локальным файлам, выполнение Python-скриптов и интеграцию с финансовыми данными рынков акций Китая (A-share), Гонконга и США. По имеющимся сведениям, работает на Kimi K2.6. Поддерживает вывод в форматах PowerPoint и Excel. Страница продукта доступна по адресу kimi.com/products/kimi-work. Почему это важно: Kimi Work выходит на рынок локальных AI-агентов, конкурируя с такими инструментами, как Claude Code, благодаря рою из 300 субагентов и подходу WebBridge к повторному использованию учётных данных — снижая трудоёмкость автоматизации для работников умственного труда. Интеграция с китайскими финансовыми данными намекает на целевой корпоративный рынок в качестве дифференцирующего фактора.

Moonshot AI выпускает Kimi K2.7-Code: открытая модель с 1T параметрами для программирования и поддержкой зрения

Moonshot AI — Sun, 14 Jun 2026 00:00:00 +0000

Moonshot AI выпустила Kimi K2.7-Code 12 июня 2026 года — веса опубликованы на HuggingFace (moonshotai/Kimi-K2.7-Code) под лицензией Modified MIT. Модель представляет собой MoE с 1 триллионом параметров и 32B активными параметрами на токен (384 эксперта, 8 активных), контекстным окном 256K токенов и визуальным энкодером MoonViT с 400M параметрами для обработки изображений и видео. Бенчмарки производителя: +21,8% на Kimi Code Bench v2, +11,0% на Program Bench и +31,5% на MLS Bench Lite по сравнению с K2.6 при примерно на 30% меньшем числе токенов рассуждения. Цены API: $0,95/$4,00 за миллион входных/выходных токенов. Cloudflare Workers AI добавила модель в день релиза. Почему это важно: Kimi K2.7-Code — пятая крупная открытая модель для программирования, выпущенная Moonshot менее чем за год. При цене входных токенов ниже доллара, масштабе 1T параметров, контексте 256K и нативной поддержке зрения она напрямую конкурирует с DeepSeek V4-Flash и GLM-5.x в агентных задачах разработки ПО.

MiniMax Sparse Attention: сокращение вычислений в 28 раз при контексте 1M токенов без потери качества

MiniMax — Sun, 14 Jun 2026 00:00:00 +0000

MiniMax опубликовала статью, представляющую блочный механизм разреженного внимания на основе Grouped Query Attention, который достигает сокращения вычислений внимания на токен в 28,4 раза при контексте 1M токенов, сохраняя качество полного внимания. Техника использует Index Branch для оценки и выбора релевантных блоков KV, при этом Main Branch выполняет точное внимание над выбранными блоками. Она лежит в основе MiniMax M3 — первой открытой модели, сочетающей frontier-возможности в программировании, контекст 1M токенов и нативную мультимодальность в единой архитектуре. Статья получила 251 апвоут на HuggingFace Daily Papers. Почему это важно: Квадратичная стоимость внимания была главным барьером для практических контекстных окон в 1M токенов. Эта работа демонстрирует сокращение вычислений в 28 раз с пренебрежимо малой потерей качества и подкреплена производственной моделью — а не просто результатами статьи. 251 апвоут на HF Daily Papers отражает высокий интерес сообщества.

vLLM добавляет поддержку MiniMax M3 с открытыми весами в день выхода: разреженное внимание с контекстом 1M токенов

MiniMax — Sun, 14 Jun 2026 00:00:00 +0000

12 июня 2026 года команда vLLM опубликовала запись в блоге, анонсировав поддержку инференса MiniMax M3 в день выхода — открытой модели с 456B параметрами, контекстным окном 1M токенов, нативным мультимодальным вводом и архитектурой MiniMax Sparse Attention (MSA) (открытые веса опубликованы приблизительно 10–11 июня). Для развёртывания требуется флаг '--block-size 128' из-за особенностей разреженного/индексного кеша MSA. AMD анонсировала одновременную поддержку в день выхода на GPU Instinct. На Fireworks AI модель M3 доступна по ценам, которые описываются как примерно в 20 раз ниже сопоставимых закрытых моделей. Почему это важно: Поддержка движком инференса в день выхода означает, что практики могут немедленно запускать M3 локально или on-prem, не дожидаясь обновления фреймворков. На фоне отключения топовых моделей Anthropic, контекст 1M токенов M3 при эффективности MoE становится практичной альтернативой для пайплайнов обработки длинных документов и программирования.

MaxProof: модель MiniMax превышает пороги золотых медалей IMO и USAMO в формальной математике

MiniMax — Sun, 14 Jun 2026 00:00:00 +0000

MiniMax опубликовала MaxProof — фреймворк для обучения и масштабирования при инференсе математических доказательств с использованием серии моделей MiniMax M3. Обучаются три возможности: генерация доказательств, верификация и исправление с учётом критики, — с использованием генеративного верификатора, оптимизированного на низкую долю ложноположительных результатов. При инференсе модель одновременно выступает генератором, верификатором, улучшателем и ранжировщиком, выбирая итоговое доказательство посредством турнирного ранжирования. MaxProof достигает 35/42 на IMO 2025 и 36/42 на USAMO 2026, превышая порог золотой медали на обоих соревнованиях. Опубликована на arXiv (2606.13473) с 75 апвоутами на HuggingFace Daily Papers. Почему это важно: Результат уровня золотой медали на IMO и USAMO одновременно от единой унифицированной открытой модели — а не ансамбля специализированных систем — означает значимый прогресс в формальных математических рассуждениях. 75 апвоутов на HF Daily Papers.

InterleaveThinker: RL-пайплайн «планировщик+критик» для перемежающейся генерации текста и изображений

CUHK Multimedia Lab — Sun, 14 Jun 2026 00:00:00 +0000

InterleaveThinker — многоагентный пайплайн из планировщика и агента-критика, наделяющий любой генератор изображений способностью создавать перемежающиеся текстово-графические последовательности. Планировщик организует входные последовательности; критик оценивает результаты и уточняет инструкции для повторной генерации. Обучение использует SFT-датасеты (80K примеров для планировщика, 112K для критика) и обучение с подкреплением GRPO с пошаговыми наградами. Система достигает производительности, сопоставимой с моделями уровня GPT-5, на бенчмарках перемежающейся генерации (WISE, RISE). Опубликована на arXiv (2606.13679) с 124 апвоутами на HuggingFace Daily Papers. Почему это важно: Перемежающаяся текстово-графическая генерация (иллюстрированные истории, воплощённые инструкции) — ключевая отсутствующая возможность в открытых мультимодальных системах. Это первая работа, применяющая RL к пайплайну «планировщик+критик» для данной задачи, достигающая уровня проприетарных frontier-моделей на релевантных бенчмарках. 124 апвоута на HF Daily Papers.

EvoArena: LLM-агенты набирают лишь 40% в динамически изменяющихся средах

MIT / NUS / Salesforce — Sun, 14 Jun 2026 00:00:00 +0000

EvoArena — бенчмарк, моделирующий среды как последовательности прогрессивных обновлений в терминальной, программной и социальной областях, — выявляет пробел в текущей оценке агентов, предполагающей статичность среды. Лучшие агенты в настоящее время достигают лишь ~40% точности. В статье также предлагается EvoMem — парадигма памяти на основе патчей, фиксирующая изменения среды в виде структурированных историй обновлений; EvoMem улучшает точность на уровне цепочки на 3,7% на EvoArena и на 4–6% на бенчмарках GAIA и LoCoMo. Опубликована на arXiv (2606.13681) и получила 121 апвоут на HuggingFace Daily Papers. Почему это важно: Практически все существующие бенчмарки агентов используют статичные среды. EvoArena принуждает к оценке в условиях непрерывных изменений, а порог в 40% показывает, насколько далеки текущие агенты от готовности к реальному применению. 121 апвоут на HF Daily Papers.

ElevenLabs запускает Avatars в ElevenCreative: AI-видео с говорящей головой на базе TTS

ElevenLabs — Sun, 14 Jun 2026 00:00:00 +0000

ElevenLabs запустила Avatars в ElevenCreative — рабочий процесс, объединяющий AI-синтез речи компании с генерацией видео с синхронизацией губ. Пользователи загружают фотографию или пишут промпт для создания постоянной идентичности аватара, затем генерируют видео с различными ракурсами, нарядами и фонами, сохраняя консистентность образа. Голос и синхронизированное с губами видео создаются за один шаг. Новый узел Avatar в Flows обеспечивает пакетную генерацию по скриптам, языкам и голосам. Доступно на всех платных тарифах. Почему это важно: ElevenLabs — преимущественно компания в области голосового AI — выходит непосредственно в создание видео, конкурируя с HeyGen и Synthesia и устраняя трение от использования множества инструментов, с которым сталкиваются предприятия. Интеграция пакетного пайплайна в Flows ориентирована на высокообъёмное многоязычное производство видео.

Claude Code v2.1.177: принудительный откат Fable 5 на Opus 4.8, исправление кеширования Bedrock, патч безопасности

Anthropic — Sun, 14 Jun 2026 00:00:00 +0000

Claude Code v2.1.177 вышел 13 июня 2026 года. В связи с директивой правительства США все выборы модели Fable 5 автоматически перенаправляются на Claude Opus 4.8 без каких-либо действий со стороны пользователя. Прочие изменения: заголовки сессий теперь генерируются на языке беседы (настраивается через параметр 'language'); новая настройка 'footerLinksRegexes' позволяет добавлять значки-ссылки в футер по регулярным выражениям; кеширование учётных данных Bedrock теперь учитывает фактическое время истечения токена вместо фиксированного 1-часового окна; патч безопасности закрывает лазейку, позволявшую обходить заблокированные модели через список разрешений 'availableModels'. Дополнительные исправления охватывают копирование/вставку через tmux SSH, переключение моделей в Remote Control и Linux sandbox со символическими ссылками на файлы настроек. Почему это важно: Принудительное перенаправление Fable 5 → Opus 4.8 означает, что любой рабочий процесс Claude Code, настроенный под возможности Fable 5, молча понижается в качестве. Исправление учётных данных Bedrock важно для команд, выполняющих длительные CI/CD-задачи на AWS. Патч безопасности для обхода списка разрешений актуален для операторов, использующих 'availableModels' для ограничения доступа к моделям.

Anthropic публикует первый Public Record: опрос 52 000 американцев об отношении к AI

Anthropic — Sun, 14 Jun 2026 00:00:00 +0000

Anthropic опубликовала результаты своего первого Anthropic Public Record 12 июня 2026 года — опроса почти 52 000 американцев, измеряющего надежды, опасения и предпочтения в области управления AI, собранного в ноябре–декабре 2025 года. Данные выявили широкий двухпартийный консенсус по основным проблемам AI. Anthropic намерена регулярно повторять опрос и расширять его на международную аудиторию, позиционируя его как механизм обеспечения того, чтобы развитие AI отражало общественное мнение, выходящее за рамки существующей пользовательской базы Claude. Почему это важно: Лаборатории редко публикуют систематические крупномасштабные исследования общественного мнения об AI. Публикация этих данных в открытом доступе — необычный шаг в плане прозрачности, а её тайминг — в тот же день, что и приостановка Fable 5, — добавляет контекст к более широким усилиям Anthropic по поддержанию доверия со стороны регуляторов и общества.

Правительство США обязало Anthropic отключить Claude Fable 5 и Mythos 5 по всему миру

Anthropic — Sun, 14 Jun 2026 00:00:00 +0000

12 июня 2026 года Министерство торговли США выпустило директиву об экспортном контроле, предписывающую Anthropic заблокировать доступ к Claude Fable 5 и Mythos 5 для иностранных граждан — включая собственных сотрудников компании с иностранным гражданством. Поскольку избирательное правоприменение в реальном времени оказалось невозможным, Anthropic отключила обе модели глобально в течение нескольких часов после получения предписания. Компания выполнила требование, публично оспорив его необходимость: по мнению Anthropic, упомянутый в директиве джейлбрейк носил узкий, неуниверсальный характер и сопоставим со слабыми местами других коммерчески доступных моделей; компания предупредила, что применение этого стандарта в масштабах всей индустрии «фактически остановит все новые развёртывания моделей». Остальные модели Anthropic продолжали работу в штатном режиме. Claude Code v2.1.177 (13 июня) молча перенаправляет любой выбор модели Fable 5 на Claude Opus 4.8. Почему это важно: Это первый случай, когда правительство США применило экспортный контроль, чтобы вынудить ведущую AI-компанию отозвать публично развёрнутые модели — затронув всех пользователей глобально, а не только иностранных граждан. Прецедент закладывает регуляторную основу для применения экспортного контроля к AI-моделям и сигнализирует об усилении государственного вмешательства в их развёртывание. Разработчики и предприятия, использующие Fable 5 в продакшне, оказались немедленно затронуты без какого-либо пути миграции.

VK Tech снизила требования к инфраструктуре VK Data Platform для AI-развёртываний в 2,5 раза

VK AI — Fri, 12 Jun 2026 00:00:00 +0000

VK Tech объявила 11 июня о снижении требований к ресурсам инфраструктуры для развёртывания VK Data Platform в отказоустойчивой on-premise-конфигурации в 2,5 раза. Платформа использует архитектуру Data Lakehouse (Apache Iceberg поверх S3-совместимого хранилища) с разделением хранения и вычислений; многоуровневое хранение на HDD потенциально снижает затраты до 10 раз по сравнению с полностью SSD-конфигурацией. Обновление ориентировано на компании, строящие конвейеры данных для AI-агентов, RAG, ML и BI-нагрузок. Почему это важно: Снижение аппаратного барьера к корпоративной инфраструктуре данных уменьшает стоимость входа для российских компаний, развёртывающих AI-агентов и RAG-пайплайны на собственных мощностях.

Suno запускает расширенное разделение на стемы с выделением отдельных инструментов

Suno — Fri, 12 Jun 2026 00:00:00 +0000

Suno выпустила обновлённое Stem Separation 11 июня 2026 года с тремя режимами: Advanced Split (для подписчиков Premier) выделяет любой из почти 100 отдельных инструментов; Split from Mix извлекает конкретный инструмент или вокал в два стема; Auto Split обеспечивает классическое разделение на 12 категорий. Все режимы описаны как работающие без артефактов. Функция доступна через меню Edit для любого сгенерированного или загруженного трека. Почему это важно: Профессиональное выделение стемов по отдельным инструментам прежде было отдельной платной услугой (Moises, Lalal.ai). Интеграция этой функции непосредственно в платформу генерации музыки сокращает количество шагов постпродакшн для пользователей Suno и упрощает ремикширование и лицензирование отдельных компонентов.

Сбер запускает AI-фестиваль Гига-Арт на базе Kandinsky 6.0

Sber — Fri, 12 Jun 2026 00:00:00 +0000

Сбер запустил Гига-Арт — открытый AI-фестиваль искусства, который проходит с 12 июня по 4 ноября 2026 года. Все желающие могут генерировать изображения, посвящённые России, с помощью модели Kandinsky 6.0 Image в GigaChat. Лучшие работы каждого этапа будут показаны на публичных медиаэкранах по всей стране. Все функции генерации изображений в GigaChat доступны участникам бесплатно. Почему это важно: Сбер использует публичный арт-конкурс для продвижения Kandinsky 6.0 и привлечения пользователей в GigaChat — это один из наиболее заметных потребительских российских AI-проектов 2026 года.

OpenCode v1.17.4: поддержка cwd для локальных MCP-серверов и аутентификация через коннекторы

SST — Fri, 12 Jun 2026 00:00:00 +0000

OpenCode v1.17.4 от SST (12 июня) добавила поддержку cwd для локальных MCP-серверов (серверы теперь стартуют из директории относительно рабочего пространства), аутентификацию через коннекторы, v2 API-эндпоинты для управления сессиями, а также исправила совместимость схемы инструментов Gemini с полями multi-type. В окне 10–12 июня: v1.17.0 добавила быстрый поиск файлов на базе fff и модель Cohere North; v1.17.1–v1.17.3 исправили восстановление аутентификации, краши на десктопе и идентификацию лончера Linux. Почему это важно: Поддержка cwd в MCP — улучшение удобства работы в монорепо и мультипроектных конфигурациях. OpenCode продолжает развиваться как независимая от модели open-source альтернатива Claude Code и Cursor.

OpenAI приобретает немецкий стартап Ona для развития постоянных облачных агентов Codex

OpenAI — Fri, 12 Jun 2026 00:00:00 +0000

OpenAI объявила о приобретении Ona — стартапа из Киля, предоставляющего защищённые облачные среды исполнения и оркестрации для агентов разработки ПО. Технология Ona позволяет AI-агентам получать доступ к инструментам и контексту в рамках длительных задач без необходимости присутствия пользователя в сессии. Еженедельная аудитория Codex превысила 5 млн человек — рост на 400%. Финансовые условия сделки не раскрываются; она подлежит регуляторному одобрению. Почему это важно: Поглощение напрямую усиливает экосистему Codex от OpenAI для асинхронных многочасовых задач агентного программирования и отражает общеотраслевой сдвиг в сторону постоянной облачной инфраструктуры агентов вместо однократных вызовов инструментов.

Midjourney V8.1 стал моделью по умолчанию: нативный вывод 2K и ускорение в 4–5 раз

Midjourney — Fri, 12 Jun 2026 00:00:00 +0000

Midjourney сделала V8.1 моделью по умолчанию 11 июня 2026 года. Ключевые улучшения по сравнению с V7: нативный вывод в HD 2K без апскейлинга, скорость рендера примерно в 4–5 раз выше (стандартные задачи SD завершаются за ~4 секунды, HD — за 12 секунд) при сохранении эстетики V7. V8.1 была доступна в альфа-версии с 14 апреля, теперь стала рабочей моделью по умолчанию для всех пользователей. Почему это важно: V8.1 заменяет V7 в качестве повседневной модели для миллионов пользователей Midjourney. Нативное разрешение 2K в сочетании с ускорением в 4–5 раз существенно снижает стоимость итераций в профессиональных рабочих процессах.

llama.cpp b9603: OpenCL-ядра Qualcomm Adreno для инференса на устройстве

ggml-org — Fri, 12 Jun 2026 00:00:00 +0000

Релиз llama.cpp b9603 (12 июня) добавил OpenCL-ядра q5_0 и q5_1 GEMM/GEMV для GPU Qualcomm Adreno при участии инженеров Qualcomm. Это обеспечивает аппаратно-ускоренный квантизованный инференс на Android-устройствах с Qualcomm и ноутбуках на Snapdragon. Другие недавние сборки в окне: b9601 — исправление сборки Vulkan; b9596 — оптимизация логирования в режиме роутера сервера; b9591 — оптимизация памяти MTP; b9590 — исправление json_schema для LFM2. Почему это важно: Adreno — наиболее распространённая архитектура мобильных GPU. Эти OpenCL-ядра приносят оптимизированный квантизованный инференс на широкую аппаратную базу, которая прежде имела ограниченную поддержку ускорения в llama.cpp.

Lionsgate берёт долю в Runway и планирует AI-сериалы короткого формата

Runway — Fri, 12 Jun 2026 00:00:00 +0000

Lionsgate приобрела неденежную долю в Runway (последняя оценка — ~$5,3 млрд) и расширила исходное партнёрство в области контента, заключённое в сентябре 2024 года. Сделка предусматривает совместное производство AI-сериалов короткого формата с использованием IP-франшиз Lionsgate, а также совместную программу создания оригинального AI-контента. Курирует партнёрство директор по AI компании Lionsgate Кэтлин Грейс. Почему это важно: Один из наиболее конкретных случаев вхождения голливудской студии в капитал AI-компании. В отличие от лицензионной сделки, Lionsgate получает долю собственности в Runway и вкладывает IP в производство — создавая прецедент для медиакомпаний, выстраивающих отношения с AI-лабораториями.

InterleaveThinker: RL-фреймворк для агентной генерации чередующегося текста и изображений

Fri, 12 Jun 2026 00:00:00 +0000

Мульти-агентный пайплайн, наделяющий любой генератор изображений возможностью чередующейся генерации текста и изображений с помощью агента-планировщика и агента-критика. Авторы вводят механизмы точностного и пошагового вознаграждения, позволяющие RL управлять полной многошаговой генерацией без обратного распространения через 25+ вызовов генератора. Результаты сопоставимы с GPT-5 на бенчмарках чередующейся генерации, а обучение также улучшает базовую производительность модели на бенчмарках рассуждений. Почему это важно: Чередующаяся генерация текста и изображений (иллюстрированные отчёты, аннотированные документы) — ключевая нерешённая мультимодальная задача. Это статья №1 в HuggingFace Daily Paper за 12 июня с 65 голосами; предлагает чистый RL-рецепт, применимый поверх существующих генераторов.

Google DeepMind и партнёры запускают исследовательский фонд по безопасности мульти-агентных AI на $10 млн

Google DeepMind — Fri, 12 Jun 2026 00:00:00 +0000

Google DeepMind, Schmidt Sciences, Cooperative AI Foundation, ARIA и Google.org объявили глобальный конкурс на исследовательское финансирование объёмом до $10 млн. Фокус — безопасность в средах, где взаимодействуют миллионы AI-агентов из разных организаций. Четыре приоритетных направления: песочницы и тестовые стенды, сетевая наука агентов, инфраструктурные протоколы и надзор. Заявки принимаются до 8 августа 2026 года. Почему это важно: По мере стремительного распространения агентных AI-систем исследования безопасности при межорганизационных взаимодействиях агентов отстают от практики. Это один из первых крупных скоординированных многосторонних усилий по изучению рисков, возникающих в масштабных сетях агентов.

FORT-Searcher: фреймворк обучающих данных, устойчивых к «срезанию углов», для агентов глубокого поиска

Fri, 12 Jun 2026 00:00:00 +0000

Выявляет четыре конкретных риска «срезания углов» в существующих обучающих данных для глубокого поиска — совместное покрытие доказательств, избирательность по одному признаку, открытые константы и привязка к предшествующим знаниям — позволяющих агентам обходить реальный многошаговый поиск. FORT синтезирует данные, устойчивые к таким паттернам, контролируя эти риски на этапах выбора сущностей, построения графа доказательств и формулировки вопросов. FORT-Searcher достигает лучших результатов среди открытых поисковых агентов сопоставимого размера. Почему это важно: Агенты глубокого поиска становятся всё более востребованными, однако качество обучающих данных оставалось плохо изученным. FORT — первый принципиальный фреймворк сложности с учётом паттернов «срезания углов». №4 на HF Daily 12 июня с 44 голосами.

EvoArena: LLM-агенты набирают лишь 39,6% на бенчмарке динамически меняющихся сред

MIT — Fri, 12 Jun 2026 00:00:00 +0000

EvoArena моделирует изменения среды как последовательности прогрессивных обновлений в терминальном, программном и социальном доменах — в отличие от статичных условий, принятых в большинстве оценок агентов. Лучшие из текущих агентов достигают лишь 39,6% точности. Авторы также предлагают EvoMem — механизм структурированной истории обновлений, повышающий результат на 1,5% на EvoArena, на 6,1% на GAIA и на 4,8% на LoCoMo. Почему это важно: Бенчмарки со статичной средой, вероятно, существенно завышают реальную производительность агентов в условиях постоянно меняющихся условий. EvoArena количественно измеряет этот разрыв и предлагает конкретный механизм отслеживания памяти. №3 на HF Daily 12 июня с 50 голосами.

Cursor Bugbot стал в 3 раза быстрее: проверка за 90 секунд и команда /review перед пушем

Cursor — Fri, 12 Jun 2026 00:00:00 +0000

Cursor выпустил обновление производительности Bugbot для Cursor 3.7+. Среднее время проверки снизилось с ~5 минут до ~90 секунд, стоимость одного запуска упала на 22%, а количество найденных ошибок на проверку выросло на 10% (с 0,56 до 0,62 за запуск) — благодаря Composer 2.5. Новая команда /review позволяет разработчикам запускать Bugbot и Security Review локально перед пушем; интеграция с GitHub/GitLab исключает повторную проверку неизменённых диффов. Почему это важно: При времени работы 90 секунд Bugbot пересекает порог удобства, достаточный для запуска перед каждым пушем, а не как асинхронная проверка после него. В сочетании с /review это встраивает AI-ревью кода непосредственно в локальный цикл разработки.

Claude Code v2.1.174–v2.1.175: корпоративные ограничения моделей и исправление для Bedrock GovCloud

Anthropic — Fri, 12 Jun 2026 00:00:00 +0000

Anthropic выпустила два релиза Claude Code 12 июня. v2.1.174 исправила ошибку определения префикса региона Bedrock GovCloud (регионы us-gov-* неверно определялись как «global»), устранила наследование фоновыми сессиями переменных окружения провайдера другой сессии, а также добавила атрибуцию использования по скилам/агентам/MCP в диалоге VSCode /usage. v2.1.175 добавила управляемую настройку enforceAvailableModels, ограничивающую модель по умолчанию разрешённым администратором списком и запрещающую её расширение через пользовательские или проектные настройки. Почему это важно: enforceAvailableModels даёт корпоративным администраторам жёсткие ограничения выбора модели, а не просто мягкие умолчания. Исправление Bedrock GovCloud разблокирует регулируемые развёртывания в государственном облаке США, где ранее возникали ошибки 400.

Astra: VLM с RL-обучением запрашивает симулятор мира для пространственных рассуждений

Fri, 12 Jun 2026 00:00:00 +0000

Astra сочетает VLM-политику с RL-обучением (Astra-VL) и симулятор мира (Astra-WM) на базе Bagel. При пространственных рассуждениях модель отдаёт симулятору инструкции на естественном языке для воображения новых точек обзора. Astra-WM поднимает результат Gemini-3-Flash на MMSI-Bench с 45,1 до 49,5; Astra-VL улучшает Qwen3-VL с 29,8 до 38,8 на MMSI-Bench и с 36,8 до 42,7 на MindCube. Почему это важно: Пространственные рассуждения по ограниченному числу ракурсов — давняя слабость VLM. Astra демонстрирует, что активное воображение новых точек обзора через RL-обученное использование инструментов практически реализуемо и даёт измеримый прирост на устоявшихся бенчмарках 3D-рассуждений.

Anthropic запускает Claude Corps: стипендиальная программа на $150 млн для 1 000 специалистов в НКО

Anthropic — Fri, 12 Jun 2026 00:00:00 +0000

Anthropic запустила Claude Corps — национальную стипендиальную программу стоимостью $150 млн, в рамках которой 1 000 специалистов в начале карьеры будут направлены в американские НКО несколькими потоками. Стипендиаты получают $85 000 в год и помогают организациям внедрять AI-инструменты на базе Claude. Первый поток из 100 человек принимает заявки до 17 июля 2026 года, старт — октябрь 2026. Партнёры программы — CodePath и Social Finance, участвуют не менее 400 НКО. Почему это важно: Сигнализирует о стратегической ставке Anthropic на внедрение AI в гражданское общество: компания позиционирует себя как ключевой участник трансформации рынка труда и расширяет реальное применение Claude за пределами корпоративных технологий.

Z-Reward: распределения оценок вместо скалярных наград для RLHF в генерации изображений

Alibaba — Thu, 11 Jun 2026 00:00:00 +0000

Z-Reward заменяет одиночные скалярные значения вознаграждения распределениями по рубриковым оценкам для RLHF в генерации изображений. Модель-учитель на 27B явно рассуждает и выдаёт распределения оценок; модель-ученик усваивает это рассуждение во время инференса через Reasoning-Internalized Score Distillation (RISD) без необходимости цепочки рассуждений во время работы. Group-wise Direct Score Optimization (GDSO) объединяет вознаграждения policy-gradient с прямым супервизором по распределениям. Учитель на 27B достигает 89.6% точности по предпочтениям людей; ученик на 9B — 88.6%; как дифференцируемый сигнал вознаграждения во время генерации — 41.3% чистого улучшения по человеческим предпочтениям. Почему это важно: 34 голоса на HuggingFace 11 июня. Подход с распределениями по рубрикам обобщается за пределы генерации изображений на любую RLHF-область, где скалярные вознаграждения теряют сигнал. Точность 89.6% по предпочтениям людей превосходит все известные базовые результаты на масштабе учителя.

OpenCode v1.17.1–v1.17.3: восстановление аутентификации, права суб-агентов, лаунчер для Linux

SST — Thu, 11 Jun 2026 00:00:00 +0000

Три релиза вышли 10 июня. v1.17.1 добавляет описания использования и видимость документации для ссылок, вводит таймауты для запросов к MCP-серверам, восстанавливает авто-обновление на macOS и добавляет маршрут /new-session с черновой вкладкой. v1.17.2 добавляет восстановление аутентификации при истёкшей удалённой конфигурации, управление правами для суб-агентов, лаунчер для Linux с иконкой приложения и UI для выбора устройства. v1.17.3 — хотфикс краша на десктопе, появившегося в v1.17.2. Почему это важно: Управление правами суб-агентов — значимое дополнение с точки зрения безопасности и управления для команд, запускающих OpenCode в production. Восстановление аутентификации при истёкшей удалённой конфигурации улучшает надёжность в корпоративных окружениях.

Модели OpenAI и Codex теперь доступны через кредиты Oracle Cloud

OpenAI — Thu, 11 Jun 2026 00:00:00 +0000

Клиенты OCI теперь могут направлять существующие Oracle Universal Credits на доступ к frontier-моделям OpenAI и Codex, интегрируя его через стандартные процессы закупок Oracle. Партнёрство позволяет корпоративным командам создавать AI-приложения и использовать Codex для разработки ПО без отдельных расчётных отношений с OpenAI. Почему это важно: Расширяет охват OpenAI среди корпоративных клиентов через один из крупнейших корпоративных облачных закупочных конвейеров. Для клиентов Oracle — многих из финансовой, медицинской и государственной сферы — снимает барьеры закупок и встраивает frontier AI в существующие бюджетные структуры, нормализуя AI-возможности как стандартные облачные сервисы.

llama.cpp b9589–b9592: исправление синхронизации CUDA SSM и оптимизация памяти Mamba

Thu, 11 Jun 2026 00:00:00 +0000

Четыре сборки вышли около 10 июня. b9589 исправляет отсутствующие барьеры синхронизации потоков перед повторным использованием разделяемой памяти в операциях CUDA SSM scan — ошибка корректности, затрагивающая модели семейства Mamba на GPU. b9591 объединяет копирование памяти D2D для MTP/Mamba в единую strided-передачу и рефакторит ggml_gated_delta_net, снижая накладные расходы. b9590 исправляет игнорирование json_schema из response_format в LFM2/LFM2.5. b9592 обновляет LibreSSL до 4.3.2. Почему это важно: Исправление синхронизации CUDA SSM устраняет скрытую ошибку корректности — затронутые пользователи могли получать незаметно неверные результаты от моделей Mamba, не подозревая об этом. Консолидация передачи памяти улучшает пропускную способность для архитектур Mamba, набирающих популярность как альтернатива attention.

LangChain Stack: провайдер-независимые колбэки токенов контентных блоков для Anthropic, Groq, Mistral

LangChain — Thu, 11 Jun 2026 00:00:00 +0000

Скоординированные релизы 10–11 июня: langchain-core 1.4.5 добавляет валидацию чанков вызовов инструментов при стриминге и асинхронные fallback'и трейсеров. langchain-anthropic 1.4.5 добавляет поддержку колбэков для токенов контентных блоков и обновление профиля модели. langchain-groq 1.1.3 добавляет строгий режим и стандартные свойства модели. langchain-mistralai 1.1.5 добавляет поддержку токенов контентных блоков в колбэках. langchain 1.3.7 поставляет новый middleware-компонент. Почему это важно: Поддержка колбэков токенов контентных блоков для Anthropic, Groq и Mistral стандартизирует наблюдаемость стриминга в LangChain-приложениях, делая трассировку на уровне токенов провайдер-независимой — полезно для учёта затрат, управления rate-limit и отладки.

Kwai Keye-VL-2.0: открытая мультимодальная MoE-модель 30B с контекстом 256K для длинного видео

Kwai — Thu, 11 Jun 2026 00:00:00 +0000

Kwai выпустил Keye-VL-2.0 — открытую мультимодальную модель 30B в архитектуре Mixture-of-Experts с 3B активных параметров. Ключевое достижение: адаптация sparse attention (на основе DeepSeek) для поддержки контекста 256K токенов без потерь при обработке видео длиной до часа. Новая техника обучения Cross-Modal Multi-Teacher On-Policy Distillation предотвращает катастрофическое забывание между задачами. Поддерживает мультимодальные агентские сценарии: выполнение кода, вызов инструментов и веб-поиск. Почему это важно: 785 голосов на HuggingFace — лучшая статья 10 июня. Обеспечивает state-of-the-art понимание длинного видео (Video-MME-v2, LongVideoBench, TimeLens) при конкурентном бюджете параметров, с полностью открытыми весами и встроенными агентскими возможностями. Повышает планку для открытых мультимодальных моделей.

Google выпускает DiffusionGemma: открытая модель на 26B с генерацией текста в 4× быстрее

Google DeepMind — Thu, 11 Jun 2026 00:00:00 +0000

Google выпустил DiffusionGemma — экспериментальную открытую модель на 26B параметров в архитектуре Mixture-of-Experts (лицензия Apache 2.0), использующую текстовую диффузию вместо авторегрессионной генерации токенов. Вместо последовательного вывода одного токена модель генерирует и уточняет блок из 256 токенов параллельно, достигая до 4× более высокой пропускной способности: 1000+ токенов/с на H100 и 700+ на GeForce RTX 5090. Во время инференса активны лишь 3.8B параметров, а квантизованная модель умещается в 18 ГБ VRAM для запуска на потребительских GPU. Качество вывода уступает стандартной Gemma 4, поэтому модель ориентирована на интерактивные сценарии с приоритетом скорости, а не качества. Почему это важно: Одна из первых практически применимых открытых текстовых диффузионных моделей с публичными весами. Архитектурный переход от последовательной к параллельной генерации блоков устраняет пропускную способность памяти как основное узкое место и открывает возможность двунаправленного внимания по генерируемым токенам — недостижимого в авторегрессионных моделях. Открытый релиз под Apache 2.0 для потребительского железа ускоряет исследования диффузионных LLM.

DeNovoSWE: генерация полного репозитория с нуля — рост с 5.8% до 47.2% на синтетических обучающих данных

AweAI Team — Thu, 11 Jun 2026 00:00:00 +0000

DeNovoSWE устраняет пробел в AI-агентах для кода: большинство обучающих данных охватывает исправление ошибок в существующих кодовых базах, а не построение полных репозиториев с нуля. Бенчмарк включает 4818 примеров, в каждом из которых требуется сгенерировать полный репозиторий по документации. Конвейер divide-and-conquer с critic-repair и фильтрацией по сложности формирует высококачественные обучающие траектории. Дообучение Qwen3-30B-A3B на этих данных поднимает метрику BeyondSWE-Doc2Repo с 5.8% до 47.2%. Почему это важно: 21 голос на HuggingFace 11 июня. Почти 10-кратный прирост на бенчмарке показывает, что качество обучающих данных для задач долгосрочного программирования — ключевое узкое место, которое можно устранить автоматизированным построением в песочницах. Приближает AI к роли полноценного архитектора ПО, а не только написателя патчей.

Claude Code v2.1.172–v2.1.173: вложенные суб-агенты до 5 уровней глубины

Anthropic — Thu, 11 Jun 2026 00:00:00 +0000

Два релиза вышли 10–11 июня. v2.1.172 позволяет суб-агентам порождать собственных суб-агентов до 5 уровней вложенности, добавляет поисковую строку в marketplace-плагинах, раскрывает атрибут model в OTEL-метриках lines-of-code и исправляет несколько ошибок (сессии с контекстом 1M зависали на usage credits, повторяющиеся ошибки обработки изображений, лаг UI в agents-view, фоновые суб-агенты зависали в статусе active). Amazon Bedrock теперь считывает AWS-регион из ~/.aws config, если AWS_REGION не задан. v2.1.173 автоматически убирает суффикс [1m] из имён моделей Fable 5 и исправляет ложное предупреждение «sandbox dependencies missing» при запуске на Windows. Почему это важно: Рекурсивный запуск суб-агентов до 5 уровней — значимое архитектурное улучшение для сложных агентских сценариев. Нормализация имён Fable 5 снимает трение при переходе команд на новое семейство моделей.

Arbor: автономное ML-исследование через уточнение дерева гипотез

NLPIR Lab — Thu, 11 Jun 2026 00:00:00 +0000

Arbor представляет фреймворк для полностью автономного ML-исследования. Координатор на основе LLM управляет персистентным Hypothesis Tree, связывающим гипотезы, экспериментальные артефакты и накопленные знания. Агенты-исполнители проверяют отдельные гипотезы в изолированных песочницах, что позволяет знаниям накапливаться на протяжении многих экспериментальных итераций вместо сброса после каждого запуска. На MLE-Bench Lite Arbor достигает 86.36% по Any Medal score — более чем 2.5× относительного прироста по сравнению с Codex и Claude Code при одинаковом вычислительном бюджете. Почему это важно: 30 голосов на HuggingFace 11 июня. Конкретный шаг к AI-системам, способным вести устойчивое, накопительное научное исследование. Преимущество в 2.5× над Codex и Claude Code на стандартизированном бенчмарке ML-инженерии — убедительный эмпирический сигнал для агентов автономного исследования.

Анатомия пост-обучения: использование интерпретируемости для аудита и исправления данных предпочтений

Thu, 11 Jun 2026 00:00:00 +0000

Применяет механистическую интерпретируемость для аудита и улучшения pipeline'ов пост-обучения. Метод выявляет латентные концепции в представлениях модели, различающие предпочтительные и менее предпочтительные ответы, затем использует эти концепции для диагностики ложных корреляций в датасетах предпочтений и формирования вознаграждений через вмешательства в признаки или данные. Позиционирует интерпретируемость не только как инструмент понимания моделей после обучения, но и как активный компонент самого цикла обучения. Почему это важно: Устраняет разрыв между исследованиями интерпретируемости и практической работой по alignment. Диагностируя, какие концепции в действительности улавливает reward-модель — включая непредусмотренные — подход предлагает принципиальный способ аудита и коррекции обучающего сигнала до того, как нежелательное поведение закрепится.

Яндекс выпускает Drops: первые носимые AI-наушники с Алисой

Yandex — Wed, 10 Jun 2026 00:00:00 +0000

Яндекс начал продажи Yandex Drops 9 июня 2026 года — своего первого носимого AI-устройства: беспроводных наушников с чипом на устройстве для локального обнаружения ключевого слова и постоянно активной Алисой. Цена — 8 990 рублей. Функция «Моя память» преобразует голосовые заметки в структурированные напоминания и списки. Доступны исключительно через чат Алисы до 16 июня, затем в рознице по всей России, Казахстану и Беларуси. Почему это важно: Знаменует выход Яндекса на рынок AI-оборудования, расширяя экосистему Алисы за пределы умных колонок в форм-фактор носимых устройств. Локальная модель на устройстве для постоянной активации — шаг к фоновому ИИ на российском рынке.

SearchSwarm: обучаемое делегирование для LLM-агентов в долгосрочных исследовательских задачах

Wed, 10 Jun 2026 00:00:00 +0000

SearchSwarm (arXiv:2606.09730) представляет мультиагентный фреймворк, в котором основная LLM декомпозирует длинные исследовательские задачи и передаёт подзадачи специализированным субагентам, которые возвращают только обобщённые результаты для соответствия контекстному окну основной модели. Обучающие данные синтезируются через систему, направляющую высококачественную декомпозицию. SearchSwarm-30B-A3B достигает 68,1 на BrowseComp и 73,3 на BrowseComp-ZH — лучшие результаты среди открытых моделей сопоставимого масштаба. Веса, обучающие данные и система выпускаются в открытый доступ. Почему это важно: Переполнение контекстного окна — практический потолок для исследовательских агентов на базе LLM. SearchSwarm решает эту проблему с помощью обучаемой стратегии делегирования, а не эвристической, а выпуск в открытый доступ обеспечивает воспроизводимость последующих исследований.

SCAIL-2: сквозная анимация персонажей через инконтекстное кондиционирование

Tsinghua University — Wed, 10 Jun 2026 00:00:00 +0000

SCAIL-2 (arXiv:2606.10804) устраняет промежуточные представления (скелеты поз, маски фона) в управляемой анимации персонажей путём прямой конкатенации управляющих видео в последовательность генерации. Ключевые компоненты: MotionPair-60K (новый синтетический датасет), инконтекстное кондиционирование маской, mode-specific RoPE для мягкого направления и Bias-Aware DPO для снижения синтетических артефактов. Достигает SOTA по нескольким задачам управляемой анимации. Почему это важно: Отказ от ненадёжного конвейера промежуточных представлений в пользу сквозного инконтекстного кондиционирования упрощает производственные конвейеры анимации персонажей. 95 голосов на HuggingFace Daily Papers отражают высокий интерес сообщества цифрового производства и разработки игр.

OpenCode v1.17.0: поиск файлов fff, Cohere North и восстановление сессий

SST — Wed, 10 Jun 2026 00:00:00 +0000

OpenCode v1.17.0 (10 июня 2026 года) добавляет ускоренный поиск файлов через fff (нечёткий поиск с ускорением Rust/SIMD), интеграцию модели Cohere North, поддержку рассуждений Claude Fable 5, улучшения инструментов MCP (сигналы отмены, корректная пагинация), разрешение зависимостей рабочих пространств Java Maven, восстановление сессий при ошибках переполнения контекста провайдера, Desktop на базе WSL для Windows, а также улучшенный интерфейс сессий и серверов. Почему это важно: Поиск файлов на базе fff — заметное улучшение DX для крупных монорепозиториев, где задержка поиска файлов становится узким местом при агентных задачах. Интеграция Cohere North расширяет выбор провайдеров для команд, предпочитающих корпоративные модели с открытыми весами.

OpenClaw 2026.6.5 Stable: валидация инструментов MCP и параллельный веб-поиск

Wed, 10 Jun 2026 00:00:00 +0000

OpenClaw 2026.6.5 stable (9 июня 2026 года) выходит вслед за несколькими бета-релизами (beta.2–beta.6) за 7–9 июня. Ключевые изменения: новая схема версионирования YYYY.M.PATCH, улучшенная обработка контента рассуждений AI-моделей, валидация результатов инструментов MCP, улучшения восстановления сессий Anthropic и интеграция параллельного провайдера веб-поиска. Почему это важно: Новая схема версионирования и улучшения MCP сигнализируют о зрелости цикла выпусков. Интеграция параллельного веб-поиска перекликается с тем, что на той же неделе выпустил Codex CLI, — это свидетельствует о конвергенции проектов в паттернах агентного поиска.

OpenAI запускает Economic Research Exchange для изучения влияния ИИ

OpenAI — Wed, 10 Jun 2026 00:00:00 +0000

OpenAI запустила OpenAI Economic Research Exchange 8 июня 2026 года — программу, приглашающую внешних исследователей проводить защищённые от раскрытия персональных данных исследования влияния ИИ на работников, компании и экономику. Приём заявок открыт до 5 июля 2026 года, отобранные участники будут уведомлены 31 июля. Участники получают структурированный доступ к данным об использовании в соответствии с установленными правилами управления. Почему это важно: По мере роста экономического влияния ИИ достоверные эмпирические исследования по вопросам вытеснения с рынка труда и производительности становятся крайне необходимы для политических решений. Готовность OpenAI открыть проприетарные данные об использовании независимым исследователям может подтолкнуть другие передовые лаборатории последовать их примеру.

OpenAI Codex CLI v0.139.0: веб-поиск в режиме кода и исправления схем MCP

OpenAI — Wed, 10 Jun 2026 00:00:00 +0000

Codex CLI v0.139.0 (9 июня 2026 года) позволяет режиму кода напрямую вызывать автономный веб-поиск и получать результаты в виде обычного текста. Улучшено сохранение схем инструментов MCP для сложных входных данных. Улучшена диагностическая команда codex doctor. Также 10 июня вышла предрелизная версия v0.140.0-alpha.2. Ранее v0.137.0 (4 июня) добавила привязки клавиш F13–F24, отображение ежемесячного кредитного лимита для корпоративных клиентов и улучшения multi-agent v2. Почему это важно: Веб-поиск непосредственно в режиме кода закрывает существенный пробел в рабочем процессе — разработчики могут искать документацию или журналы изменений через Codex без переключения контекста. Улучшения схем MCP помогают с цепочками сложных вызовов инструментов.

MiniMax M3 с открытыми весами: контекст 1M, MoE и кодирование на уровне лучших моделей

MiniMax — Wed, 10 Jun 2026 00:00:00 +0000

MiniMax опубликовала открытые веса модели M3 на HuggingFace 10 июня 2026 года, выполнив обещание, данное при запуске API 1 июня. M3 использует MiniMax Sparse Attention (MSA) для обработки контекста в 1M токенов при вычислительных затратах в 1/20 от предыдущего поколения, обеспечивая 9× более быстрый prefill и 15× более быстрое декодирование. Набирает 59,0% на SWE-Bench Pro (превосходя GPT-5.5 и Gemini 3.1 Pro) и нативно поддерживает входные данные в виде изображений и видео. Цены API: $0,60/$2,40 за миллион токенов на входе/выходе. Почему это важно: M3 — первая модель с открытыми весами, сочетающая кодирование уровня лучших моделей, контекстное окно в миллион токенов и нативный мультимодальный ввод в единой архитектуре. Открытые веса существенно расширяют возможности сообщества open-source по запуску и дообучению моделей переднего края.

Gemini 3.5 Live Translate: синхронный перевод речи на 70+ языках

Google DeepMind — Wed, 10 Jun 2026 00:00:00 +0000

Google запустила Gemini 3.5 Live Translate 9 июня 2026 года — модель непрерывного перевода речи в речь, охватывающую 70+ языков с сохранением интонации, темпа и высоты голоса говорящего. В отличие от пошаговых систем, она генерирует переведённую речь без пауз между репликами, поддерживая более 2000 языковых пар. Доступна сразу: через Gemini Live API и Google AI Studio для разработчиков, в Google Translate на Android и iOS, а также в режиме закрытого превью для корпоративных клиентов Google Meet. Весь аудиовывод маркируется через SynthID. Почему это важно: Непрерывный голосовой перевод с низкой задержкой и высокой точностью, одновременно запущенный в потребительском приложении (Google Translate) и API для разработчиков, — это качественный скачок по сравнению с предыдущими инструментами автоперевода, закрепляющий за Google лидерство в области многоязычного синхронного перевода речи.

Flow-DPPO: принципиальное RL-выравнивание для моделей генерации изображений и видео на основе flow matching

Tencent Hunyuan — Wed, 10 Jun 2026 00:00:00 +0000

Flow-DPPO (arXiv:2606.11025) утверждает, что варианты PPO с отсечением отношений (Flow-GRPO, CPS) структурно не подходят для моделей flow matching, поскольку зашумлённые пошаговые соотношения политик приводят к непоследовательному применению области доверия по позициям траектории. Flow-DPPO заменяет отсечение отношений проксимальным ограничением на основе дивергенции и использует гауссовскую структуру пошаговых политик flow для эффективного вычисления точных KL-дивергенций. Демонстрирует превосходное вознаграждение, лучшую KL-эффективность, снижение катастрофического забывания и стабильное многоэпохальное обучение на задачах генерации изображений и видео. Почему это важно: Применение RL-выравнивания к генеративным моделям изображений и видео — активное направление исследований. Flow-DPPO предлагает теоретически обоснованную альтернативу отсечению отношений, разработанную специально для парадигмы flow matching с непрерывным временем, используемой сегодня в большинстве SOTA диффузионных моделей.

DRPO: переосмысление дивергентной регуляризации в обучении с подкреплением для LLM

Tencent Hunyuan — Wed, 10 Jun 2026 00:00:00 +0000

DRPO (Divergence Regularized Policy Optimization, arXiv:2606.09821) заменяет жёсткое маскирование градиентов из PPO/DPPO плавным квадратичным регуляризатором с взвешиванием по преимуществу. Вместо того чтобы отбрасывать обновления при выходе токена за границы области доверия, DRPO применяет ограниченные непрерывные веса градиентов, которые одновременно ослабляют вредоносные расхождения и дают корректирующие сигналы. Подход валидирован на различных масштабах моделей, архитектурах и настройках точности, демонстрируя улучшенную стабильность и эффективность по сравнению с существующими методами RL-обучения для LLM. Почему это важно: С 324 голосами на HuggingFace Daily Papers — лучший показатель за 10 июня — эта статья напрямую затрагивает фундаментальную нестабильность в конвейерах обучения RLVR, лежащих в основе моделей рассуждений, таких как DeepSeek-R1 и Qwen3. Более плавный механизм контроля области доверия может повысить надёжность пост-обучения в масштабах всей отрасли.

Cohere North Mini Code: 30B MoE-модель под Apache 2.0 для агентных рабочих процессов

Cohere — Wed, 10 Jun 2026 00:00:00 +0000

Cohere выпустила North Mini Code 1.0 9 июня 2026 года под лицензией Apache 2.0. Модель имеет 30B параметров суммарно, при этом активно только 3B (MoE с 128 экспертами, 8 активируются на каждый токен), с чередованием скользящего окна и полного self-attention. Ориентирована на агентные рабочие процессы разработки ПО, набирая 33,4 на кодировочном индексе Cohere. Доступна на HuggingFace в форматах BF16 и FP8, интегрирована в OpenCode и доступна через Cohere API. Почему это важно: 30B MoE-модель с 3B активных параметров работает на одном H100, что делает её реально применимой для корпоративного on-premises развёртывания. Лицензия Apache 2.0 и нативная интеграция с OpenCode делают её сильным кандидатом для команд, которым нужны управляемые, самостоятельно размещаемые агенты для кодирования без привязки к поставщику.

Claude Fable 5 и Claude Mythos 5: самая мощная модель Anthropic становится публичной

Anthropic — Wed, 10 Jun 2026 00:00:00 +0000

Anthropic выпустила Claude Fable 5 9 июня 2026 года — первую публично доступную модель класса Mythos. Она использует ту же базовую архитектуру, что и Claude Mythos 5, но поставляется с тремя классификаторами-ограничителями (кибербезопасность, биология/химия, предотвращение дистилляции), которые в ограниченных доменах переключаются на Claude Opus 4.8. Цена: $10/M токенов на входе и $50/M на выходе; поддержка 128k токенов на выходе. Бесплатно для подписчиков Pro/Max/Team/Enterprise до 22 июня. Mythos 5 (без ограничений) остаётся доступной только для прошедших проверку исследователей в области кибербезопасности через Project Glasswing. Anthropic привела миграцию кодовой базы в 50 миллионов строк в качестве флагманского реального теста. Почему это важно: Первая модель класса Mythos, ставшая доступной широкой аудитории, знаменует новый уровень публично доступного интеллекта. Архитектура многоуровневого доступа — Fable 5 с ограничителями для всех пользователей и Mythos 5 без ограничений для проверенных исследователей — может стать отраслевым шаблоном для ответственного выпуска высокопроизводительных моделей.

Claude Code v2.1.170: добавлена поддержка Claude Fable 5

Anthropic — Wed, 10 Jun 2026 00:00:00 +0000

Claude Code v2.1.170 (9 июня 2026 года) добавляет поддержку только что вышедшей модели Claude Fable 5. Предыдущая версия v2.1.169 (8 июня) представила флаг --safe-mode и команду /cd; v2.1.166 (6 июня) добавила конфигурацию fallbackModel с поддержкой до трёх альтернативных моделей для устойчивости при перегрузке API; v2.1.163 (4 июня) ввела политики версионных требований (requiredMinimumVersion/requiredMaximumVersion) и команду /plugin list. Почему это важно: Поддержка Fable 5 в день выпуска демонстрирует тесную интеграцию инструментов Anthropic. Функция fallbackModel из v2.1.166 — более долгосрочное улучшение: корпоративные команды могут настроить автоматическое переключение между тремя моделями без вмешательства пользователя.

ABot-Earth 0.5: генерация 3D городских сцен из спутниковых снимков

Alibaba AMAP CV Lab — Wed, 10 Jun 2026 00:00:00 +0000

ABot-Earth 0.5 (arXiv:2606.09967) синтезирует бесшовные 3D городские среды из геопространственно привязанных спутниковых снимков с использованием 3D Gaussian Splatting с иерархическим уровнем детализации для визуализации в реальном времени в браузере. Генерирует реалистичную геометрию и текстуры менее чем за 10 минут на квадратный километр. Ориентирован на преодоление разрыва между симуляцией и реальностью для задач воплощённого ИИ, например навигации БПЛА. Почему это важно: Масштабируемая фотореалистичная генерация 3D мира из спутниковых снимков находит прямое применение в симуляции роботов, обучении автономных транспортных средств и городских цифровых двойниках. Генерация квадратного километра менее чем за 10 минут — значимый рубеж эффективности. 83 голоса на HuggingFace Daily Papers.

Слабые критики создают сильных учеников: On-Policy Critique Distillation для масштабируемого надзора

Rutgers University — Tue, 09 Jun 2026 00:00:00 +0000

Предлагается Progressive On-Policy Critique Distillation (OPCD), где слабая модель выступает критиком, указывающим направления для улучшения, а не выносящим бинарные суждения (arXiv:2606.00424). Ключевой инсайт: слабым критикам достаточно предлагать ненаправляющие в сторону ошибки направления улучшений — а не правильные финальные ответы — что позволяет сильным моделям использовать собственные знания для самосовершенствования. Метод фильтрует высококачественные критики и дистиллирует поведение, направляемое критиком, в сильную модель через адаптивное самообучение. Демонстрирует улучшения на бенчмарках рассуждений и согласования на протяжении итераций обучения. Почему это важно: Масштабируемый надзор — центральная проблема согласования: по мере роста возможностей моделей человеческий и слабомодельный надзор становится недостаточным. OPCD предлагает практический путь, при котором дешёвые слабые критики могут ускорять развитие более сильных моделей без необходимости полного понимания задачи критиком — ему достаточно указать в лучшую сторону, решая ту же проблему, что конституционный AI и дебаты, но с позиции дистилляции.

vLLM Semantic Router v0.3 Themis: производственная маршрутизация с сохранением состояния и Session-Aware Agentic Routing

Tue, 09 Jun 2026 00:00:00 +0000

vLLM Semantic Router v0.3 (кодовое имя Themis), выпущен 5 июня 2026, превращает маршрутизацию из инструмента классификации в полноценную производственную систему с сохранением состояния и наблюдаемостью. Ключевые нововведения: унифицированный формат конфигурации v0.3, устраняющий фрагментацию диалектов; обогащение сигналов с извлечением признаков из 15+ семейств сигналов (аутентификация, безопасность, структура диалога, обнаружение циклов инструментов); Session-Aware Agentic Routing (SAAR), объединяющий собственную память сессий роутера, блокировки безопасности во время циклов инструментов, проверки переносимости состояния провайдера и воспроизводимую диагностику; обновлённая панель оператора; и привязки Intel OpenVINO для интеграции с C++/Go. Релиз включает 350+ коммитов с версии v0.2.0. Роутер занял первое место в RouterArena с взвешенным Arena Score 75.4 и получил нативную поддержку протокола Anthropic `/v1/messages` наряду с совместимостью с OpenAI. Почему это важно: SAAR напрямую решает практическую проблему развёртывания агентов — смена моделей многоходовыми агентами в середине сессии и дестабилизация поведения. Поддержка протокола Anthropic расширяет применимость за пределы чисто OpenAI-совместимых стеков, а первое место в RouterArena подтверждает производственную готовность.

SWE-Explore: бенчмарк, выявляющий исследование репозитория как ключевое ограничение в агентах для написания кода

Shanghai Jiao Tong University — Tue, 09 Jun 2026 00:00:00 +0000

SWE-Explore (arXiv:2606.07297) представляет бенчмарк из 848 GitHub-задач на 10 языках программирования и 203 репозиториях для оценки исследования репозитория — шага перед генерацией патча, на котором агент должен найти релевантный код. Классические ретриверы (BM25, TF-IDF) показывают результаты близкие к случайной базовой линии; агентные инструменты исследования достигают >65% точности на уровне файлов, но лишь ~15% точности на уровне строк. Замена GPT-5 на Gemini меняет абсолютные показатели, но не устраняет узкое место по полноте охвата, что указывает на то, что ограничение — в стратегии исследования, а не в сырой мощности модели. Почему это важно: Большинство тестов агентов для написания кода измеряют конечный успех патча, скрывая реальное место сбоев агентов. SWE-Explore показывает, что фаза исследования является ключевым ограничением: пропуск релевантных областей кода вредит ремонту гораздо сильнее, чем включение нерелевантного контекста. Охват 10 языков и 203 репозиториев делает бенчмарк более представительным, чем SWE-bench с доминированием Python. Второе место на HF Daily Papers (77 голосов).

OpenAI Codex CLI v0.138.0: Desktop Handoff, структурированный вывод плагинов и видимость токенов аккаунта

OpenAI — Tue, 09 Jun 2026 00:00:00 +0000

Версия 0.138.0 (8 июня 2026) добавляет desktop handoff для команды `/app` на macOS и Windows, передачу локальных путей к файлам изображений в модели для последующего редактирования, расширенный выбор уровня рассуждений с резервными сочетаниями клавиш для терминалов без привязок Alt, видимость использования токенов аккаунта и поддержку персональных токенов доступа v2, а также структурированный JSON-вывод для автоматизации плагинов (`codex plugin list --json`). Оптимизации TUI-стриминга устраняют артефакты с пустыми строками, улучшена загрузка инструкций рабочего пространства для удалённых и символически связанных окружений. 9 июня также была собрана альфа-версия v0.139.0. Почему это важно: Desktop handoff замыкает цикл между CLI и GUI-воркфлоу, а структурированный JSON-вывод плагинов открывает возможности для автоматизированного инструментария вокруг сессий Codex. Релиз продолжает высокий темп выпусков после переписывания Codex CLI на Rust.

Ollama v0.30.7: поддержка Hermes Desktop, Gemma 4 QAT и Nemotron-3-Ultra

Ollama — Tue, 09 Jun 2026 00:00:00 +0000

Ollama v0.30.7 (7 июня 2026) добавляет нативную поддержку Windows для Hermes Desktop и синхронизирует списки моделей OpenAI-совместимого API с доступными тегами. Релиз v0.30.6 (5 июня) добавил модели Gemma 4, оптимизированные с помощью Quantization-Aware Training (QAT), снижающего требования к памяти примерно на 72% при сохранении качества, близкого к оригинальному. Версия v0.30.4 (3 июня) представила поддержку Nemotron-3-Ultra для рассуждений и длительных агентных воркфлоу, а также исправила выгрузку на Metal GPU для мультимодальных моделей на Apple Silicon. Версия v0.30.2 добавила поддержку Qwen Code и улучшила подсчёт токенов для кешированных промптов. Почему это важно: Поддержка Gemma 4 QAT резко снижает аппаратный порог для локального запуска мультимодальной модели Google, а поддержка Nemotron-3-Ultra открывает доступ к флагманской модели рассуждений NVIDIA для локального инференса. Шесть версий за пять дней отражает активную интеграцию нескольких новых семейств моделей.

О геометрии on-policy дистилляции: парадигма обучения, отличная от SFT и RLVR

Hong Kong University of Science and Technology — Tue, 09 Jun 2026 00:00:00 +0000

В этой статье (arXiv:2606.07082) on-policy дистилляция (OPD) характеризуется как самостоятельная парадигма обучения путём анализа геометрии в пространстве параметров. OPD оставляет 51,6% весов неизменными (между SFT с 8,1% и RLVR с 77,2%), сильнее избегает главных направлений, чем SFT, и проявляет «блокировку подпространства» — накопленные обновления быстро входят в стабильный низкоразмерный канал. Ограничение обучения этим рано сформировавшимся подпространством сохраняет производительность, а само подпространство устойчиво к разреживанию токенов и off-policy роллаутам, но меняется при смешивании целей. Почему это важно: OPD стала популярным способом обучения моделей рассуждений (например, через GRPO-подобную дистилляцию), однако оставалось неясным, является ли она просто RL с другим вознаграждением или замаскированным SFT. Статья устанавливает её собственную идентичность с практическими импликациями: заблокированное подпространство может направлять разработку алгоритмов с учётом геометрии и потенциально снижать стоимость обучения за счёт прямой работы с активным подпространством. Третье место на HF Daily Papers (45 голосов).

ElevenLabs Music v2: смена жанра по ходу трека, inpainting и коммерческий клиренс

ElevenLabs — Tue, 09 Jun 2026 00:00:00 +0000

ElevenLabs выпустила Music v2 26 мая 2026 года, представив переходы между жанрами в середине трека (например, опера в хэви-метал в рамках одной композиции), пошаговое структурное построение (вступление, куплет, припев, бридж, аутро), audio inpainting для регенерации отдельных сегментов без влияния на остальную часть, встраивание немузыкальных звуковых эффектов внутри треков, а также плотную лирическую подачу включая быстрый рэп. Модель обучена исключительно на лицензионных данных и разрешена для коммерческого использования без платы за синхронизацию. Цены снижены до 50% для ElevenAPI и до 40% для самообслуживания ElevenCreative. Почему это важно: Music v2 — первая крупная модель генерации музыки со встроенным коммерческим лицензионным клирансом и inpainting на уровне трека, устраняющая два главных барьера для профессионального внедрения — юридические риски и контроль над редактированием. Снижение цен в сочетании со структурным управлением композицией переводит генеративную музыку из категории новинок в разряд жизнеспособного производственного инструмента для рекламы, видео и брендового контента.

Echo-Memory: контролируемое исследование механизмов памяти в видеомоделях мира с условием на действие

Microsoft Research — Tue, 09 Jun 2026 00:00:00 +0000

Echo-Memory (arXiv:2606.09803) представляет контролируемый фреймворк для изоляции и сравнения механизмов памяти в моделях генерации видео с условием на действие. Фиксируя основу и варьируя только компоненты памяти, статья разделяет четыре оси: ёмкость, сжатие, стратегию считывания и рекуррентность. Ключевые выводы: сырой контекст оказывается сильнее, чем ожидалось; агрессивное сжатие снижает точность; блочная рекуррентность на основе пространства состояний побеждает в задачах возврата в открытых сценах; качество воспроизведения не является надёжным индикатором истинной памяти сцены. Почему это важно: Модели мира для робототехники и игровой симуляции дают сбои, когда камера возвращается в ранее посещённое место и сцена изменилась. Статья предоставляет практикам строгий инструмент диагностики для выбора архитектур памяти, выявляя, что основным узким местом является модуль памяти, а не основа синтеза изображений. Возглавила HuggingFace Daily Papers 9 июня с 78 голосами.

Cursor 3.7: Design Mode в канвасах, отчёты об использовании контекста и вложенные субагенты SDK

Cursor — Tue, 09 Jun 2026 00:00:00 +0000

Cursor 3.7 (4–5 июня 2026) представляет Design Mode в канвасах: разработчики кликают, рисуют или голосом описывают изменения UI прямо поверх отрендеренных компонентов, направляя правки без написания описаний. Множественное выделение и голосовой ввод работают пока агент выполняет задачу. Новый интерактивный отчёт об использовании контекста в канвасах показывает распределение токенов по системному промпту, определениям инструментов, правилам, навыкам и другим элементам. Обновление SDK добавляет кастомные инструменты через `local.customTools`, автоматическую маршрутизацию проверок для вызовов инструментов, варианты хранения JSONL и кастомные хранилища, а также вложенные субагенты, способные порождать собственные субагенты на любую глубину. Корпоративные клиенты получили управление мультикомандными организациями с раздельными настройками безопасности, управления и бюджета (GA с 3 июня). Почему это важно: Design Mode устраняет ключевую точку трения в UI-ориентированной разработке, позволяя пользователям указывать и аннотировать прямо в канвасе, а не писать описания. Вложенные субагенты открывают более сложные многоэтапные воркфлоу нативно в SDK Cursor.

Claude Code v2.1.169: флаг Safe Mode, команда /cd и настройка disableBundledSkills

Anthropic — Tue, 09 Jun 2026 00:00:00 +0000

Версия 2.1.169 (8 июня 2026) добавляет флаг `--safe-mode` (и переменную среды `CLAUDE_CODE_SAFE_MODE`), который отключает все кастомизации — CLAUDE.md, плагины, навыки, хуки, MCP-серверы — для чистой диагностики. Команда `/cd` позволяет переключить сессию в новую рабочую директорию без сброса кеша промптов. Настройка `disableBundledSkills` скрывает встроенные навыки и slash-команды от модели. Среди исправлений: навигация стрелками Up/Down в длинных строках ввода, ошибки применения политик MCP в корпоративной среде, зависание UI на macOS для пользователей, аутентифицированных через claude.ai, и медленная работа `claude -p` на Windows (регрессия из v2.1.161). Предыдущая версия v2.1.166 (6 июня) добавила поддержку `fallbackModel` с возможностью указать до трёх резервных моделей, поддержку glob-паттернов в правилах запрета и усиленную защиту безопасности межсессионных сообщений. Почему это важно: Флаг safe-mode даёт командам надёжный механизм диагностики некорректного поведения агентов без постоянного отключения всей конфигурации. Настройка fallbackModel существенно повышает надёжность при перегрузке API, сокращая перебои для высоконагруженных команд.

VideoKR: обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео

Yale University — Mon, 08 Jun 2026 00:00:00 +0000

VideoKR представляет обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео, построенный на основе 145K экспертных видео под лицензией CC с цепочками рассуждений постепенно увеличивающейся глубины. Включает VideoKR-Eval — аннотированный экспертами бенчмарк, требующий подлинного видео-заземлённого рассуждения, а не текстовых срезов. SFT с последующим GRPO post-training на VideoKR превосходит предыдущие подходы к post-training. Почему это важно: Мультимодальные бенчмарки рассуждений критикуются за решаемость из текста в обход видео. VideoKR устраняет этот пробел, ориентируясь на видео-заземлённое знаниевое рассуждение, и предоставляет одновременно обучающие данные и инфраструктуру оценки для прогресса в задачах, реально зависящих от зрительного восприятия.

SubtleMemory: бенчмарк выявляет систематические провалы агентов в тонком реляционном запоминании

Mon, 08 Jun 2026 00:00:00 +0000

SubtleMemory представляет бенчмарк из 1 522 примеров для проверки способности AI-агентов работать с воспоминаниями, которые усиливают, расходятся или противоречат друг другу, — в отличие от простого воспроизведения. Построен на основе 10 длинных историй, подкреплённых 1 090 контролируемыми по отношениям наборами вариантов памяти; тестирует 11 систем памяти. Все проверенные системы демонстрируют систематические сбои в тонкой реляционной дискриминации памяти с различными паттернами отказов на этапах сохранения, извлечения и последующего рассуждения. Почему это важно: Существующие бенчмарки памяти для агентов измеряют воспроизведение, а не реляционное рассуждение над конфликтующими воспоминаниями. SubtleMemory обнажает этот слепой spot во всех текущих подходах, мотивируя новое поколение архитектур памяти для долгосрочных агентов.

NVIDIA Nemotron 3 Ultra: открытая модель 550B MoE теперь доступна для агентных задач

NVIDIA — Mon, 08 Jun 2026 00:00:00 +0000

NVIDIA Nemotron 3 Ultra стала доступна 4 июня, анонс состоялся на Computex. Модель имеет 550B суммарных и ~55B активных параметров в архитектуре Mixture-of-Experts Hybrid Mamba-Attention, ориентированной на длительные агентные задачи с персистентной памятью и многошаговым использованием инструментов. Набирает 48 баллов на Artificial Analysis Intelligence Index — лучший результат среди американских open-weights моделей. Распространяется через Hugging Face, ModelScope, OpenRouter и как NVIDIA NIM-микросервисы; скорость инференса — 300+ токенов/сек на DeepInfra. Почему это важно: На данный момент наиболее мощная американская open-weights модель, дающая командам полноценную self-hostable альтернативу для сложных агентных пайплайнов без закрытых API. Гибридная архитектура Mamba снижает требования к пропускной способности памяти на длинном контексте, делая мультиагентную оркестрацию экономически эффективной.

GitHub Copilot SDK выходит в General Availability с поддержкой MCP и шести языков

GitHub / Microsoft — Mon, 08 Jun 2026 00:00:00 +0000

GitHub Copilot SDK стал GA 2 июня, доступен для Node.js/TypeScript, Python, Go, .NET, Rust и Java. Предоставляет полный агентный рантайм Copilot — планирование, вызов инструментов, правку файлов, стриминг и многоходовые сессии — через стабильный API. Разработчики могут регистрировать пользовательские инструменты, подключать MCP-серверы, переопределять встроенные инструменты и поддерживать мультиклиентские воркфлоу, где разные клиенты вносят инструменты и разрешения в одну сессию. Доступен всем подписчикам Copilot и неподписчикам через BYOK. Почему это важно: Статус GA и нативная поддержка MCP позволяют командам встраивать агентный движок Copilot напрямую в IDE, CI-пайплайны и корпоративный инструментарий без построения собственного слоя оркестрации и с гарантиями production SLA.

GitHub Copilot получает контекстное окно в 1M токенов и настраиваемые уровни рассуждений

GitHub / Microsoft — Mon, 08 Jun 2026 00:00:00 +0000

GitHub анонсировал 4 июня, что Copilot теперь поддерживает контекстное окно в один миллион токенов, позволяя работать с крупными кодовыми базами и многофайловыми проектами без потери контекста. Настраиваемые уровни рассуждений позволяют разработчикам регулировать соотношение скорости и глубины и включать расширенное мышление для архитектурных и отладочных задач. Обе функции доступны в VS Code, Copilot CLI и приложении Copilot; больший контекст или более высокий уровень рассуждений потребляет дополнительные GitHub AI Credits. Почему это важно: Контекстное окно в 1M токенов ставит Copilot в один ряд с фронтирными моделями для задач масштаба репозитория. Настраиваемые уровни рассуждений позволяют командам подключать углублённый анализ по запросу, а не платить за него равномерно — практический инструмент управления стоимостью для корпоративных пользователей.

Google DeepMind публикует QAT-чекпоинты Gemma 4: модель E2B занимает менее 1 ГБ на устройстве

Google DeepMind — Mon, 08 Jun 2026 00:00:00 +0000

Google DeepMind 5 июня выпустила чекпоинты Quantization-Aware Training (QAT) для всего семейства Gemma 4. Новый мобильный QAT-формат сокращает объём модели E2B (2B) до менее 1 ГБ ОЗУ (против 9,6 ГБ в BF16), Q4_0 QAT уменьшает E2B с 9,6 ГБ до 3,2 ГБ, а E4B — с 15 ГБ до 5 ГБ. Веса опубликованы на Hugging Face с поддержкой в llama.cpp (b9549+ добавляет поддержку Gemma 4 MTP), Ollama, LM Studio, vLLM, MLX и LiteRT-LM. Почему это важно: Модели объёмом менее 1 ГБ открывают возможность развёртывания на среднебюджетных смартфонах и микроконтроллерах. QAT нивелирует типичное падение качества при агрессивном квантовании, делая компактные модели Gemma 4 пригодными для продакшн-приложений на устройстве — веха для edge AI.

Code2LoRA: гиперсеть генерирует репозиторно-специфичные адаптеры для code LM без накладных расходов на инференс

University of Waterloo — Mon, 08 Jun 2026 00:00:00 +0000

Code2LoRA генерирует репозиторно-специфичные LoRA-адаптеры для языковых моделей кода без накладных расходов на токены во время инференса. Два варианта: Code2LoRA-Static преобразует снимок репозитория в адаптер; Code2LoRA-Evo поддерживает адаптеры через состояние GRU, обновляемое по каждому code diff. Представлен RepoPeftBench (604 Python-репозитория, треки статики и эволюции). Code2LoRA-Static достигает 63,8% cross-repo и 66,2% in-repo exact match, соответствуя per-repository LoRA fine-tuning без какого-либо per-repo обучения. Почему это важно: Решает практическое узкое место для code AI в продакшне: актуализация LLM-адаптеров по мере эволюции кодовых баз без повторного дорогостоящего файн-тюнинга. Инкрементальный механизм обновления на базе GRU позволяет обслуживать адаптеры в темпе развития программного обеспечения.

Агентные трансформеры доказуемо обучаются поиску в глубину через обучение с подкреплением

Carnegie Mellon University / Ohio State University — Mon, 08 Jun 2026 00:00:00 +0000

Статья содержит первое теоретическое доказательство того, что агенты на базе трансформеров обучаются механизмам поиска в глубину исключительно на основе разреженной обратной связи RL, без экспертных демонстраций. Конструируется двухголовый трансформер, где одна голова отслеживает предыдущие действия, а другая обнаруживает сбои и инициирует откат. При обучении по глубинному курикулуму DFS возникает поэтапно: модели, обученные на неглубоких деревьях, обобщаются на более глубокие, а несбалансированные распределения целей заставляют дисконтирование возврата порождать приоритизированный вариант DFS. Почему это важно: Закрывает существенный теоретический пробел, объясняя, почему RL-обучение порождает агентов, способных к поиску, и даёт механистическое понимание специализации голов внимания трансформера в процессе RL — напрямую актуально для понимания и проектирования моделей рассуждений.

xAI Grok Imagine Video 1.5: image-to-video с нативным звуком возглавляет Arena Leaderboard, API уже доступен

xAI — Sat, 06 Jun 2026 00:00:00 +0000

30–31 мая 2026 года xAI выпустила Grok Imagine Video 1.5 в режиме превью; 3 июня API стал доступен на api.x.ai под псевдонимом `grok-imagine-video-1.5-2026-05-30`. Модель анимирует неподвижное изображение (или текстовый запрос) в видеоклип с нативным синхронизированным звуком — музыкой, звуковыми эффектами и губной синхронизацией диалогов — с поддержкой расширения видео и генерации с использованием референса в разрешении 720p. При запуске модель заняла первое место в Image-to-Video Arena leaderboard, опередив v1.0 на 52 очка Elo. Цены: $0,08/с при 480p, $0,14/с при 720p. Почему это важно: Первое место в Image-to-Video Arena leaderboard сразу при запуске; нативная синхронизация звука непосредственно в генерации видео по-прежнему редко встречается в публично доступных моделях.

Иллюзия самокоррекции: LLM исправляют чужие ошибки, но не свои — причина в ролевых метках

Sat, 06 Jun 2026 00:00:00 +0000

LLM охотно исправляют ошибки, представленные как внешний ввод, но не справляются с коррекцией идентичных ошибок, оформленных как собственный предыдущий вывод. Статья изолирует причину: ролевые метки шаблона чата (сообщение пользователя, внутренняя мысль, вывод инструмента, системная память), а не само содержимое. Переметка ошибочного внутреннего утверждения как внешнего источника увеличивает частоту явных исправлений на 23–93 процентных пункта для 7 семейств моделей и 3 предметных областей (p < 0,001 в 10/13 тестовых ячейках). Вмешательство на уровне структуры промпта, не требующее дообучения, обеспечивает значительные улучшения. Почему это важно: Переосмысляет сбои самокоррекции LLM как артефакт структуры промпта, а не фундаментальное когнитивное ограничение — это одновременно более практично (устраняется через промптинг) и раскрывает, насколько чувствительно поведение модели к фреймингу.

Сбер представил мультиагентного бизнес-ассистента на базе GigaChat для корпоративного банкинга на ПМЭФ 2026

Sber — Sat, 06 Jun 2026 00:00:00 +0000

На Петербургском международном экономическом форуме (ПМЭФ, 3–6 июня 2026 года) Сбер анонсировал нового Бизнес-ассистента для мобильного приложения СберБизнес — разговорный AI-интерфейс на базе GigaChat, заменяющий традиционный интернет-банк. Система использует мультиагентную архитектуру с более чем 160 специализированными AI-агентами, охватывающими платежи, счета, аналитику и документооборот. Ограниченная консультационная версия уже обрабатывает более 7,5 миллиона запросов от свыше одного миллиона предпринимателей. Полное развёртывание запланировано на осень 2026 года. Почему это важно: Сбер выводит GigaChat за рамки потребительского чатбота в полноценную операционную систему для корпоративного банкинга с агентной архитектурой, полностью заменяющей структурированный UI — одно из наиболее конкретных производственных внедрений российской LLM в высокорисковых финансовых рабочих процессах.

OpenCode v1.16: клонирование рабочих пространств, запуск на 38% быстрее, провайдер Snowflake Cortex, воспроизведение сессий

Sat, 06 Jun 2026 00:00:00 +0000

5 июня 2026 года OpenCode (SST) выпустила v1.16.0 и v1.16.2. В v1.16.0 добавлено управляемое клонирование рабочих пространств с сохранением изменённых и неотслеживаемых файлов, перемещение сессий между рабочими пространствами, корректная поддержка моделей OpenAI через AWS Bedrock, обнаружение навыков с загрузкой агентов из файлов, новые цветовые темы и выбор уровня thinking для десктопа, а также режим `run --replay` для интерактивного воспроизведения сессий. Время запуска ускорилось на 38%. В v1.16.2 исправлено выполнение reasoning summaries только для поддерживающих их провайдеров (устраняет сбои GPT-5), отказ от нечётких совпадений редактирования для предотвращения перезаписи неправильного кода, зависания сессий Bedrock, добавлена навигация по фрагментам в просмотрщике diff и Snowflake Cortex как новый LLM-провайдер. Почему это важно: Клонирование рабочих пространств и воспроизведение сессий — значительные улучшения удобства работы для процессов разработки с несколькими рабочими пространствами; поддержка Snowflake Cortex расширяет корпоративное покрытие.

OpenAI выпускает Lockdown Mode для блокировки эксфильтрации через prompt injection в ChatGPT

OpenAI — Sat, 06 Jun 2026 00:00:00 +0000

5 июня 2026 года OpenAI запустила Lockdown Mode — опциональную расширенную настройку безопасности, ограничивающую исходящие сетевые возможности ChatGPT (веб-поиск, Deep Research, Agent Mode, загрузка файлов) для блокировки эксфильтрации данных через атаки prompt injection. Доступно для всех авторизованных личных аккаунтов (Free, Plus, Pro) и самообслуживаемого ChatGPT Business. Сопутствующая метка Elevated Risk отображается в ChatGPT, ChatGPT Atlas и Codex для предупреждения о высокорискованных операциях. Почему это важно: Prompt injection — главный вектор атак на LLM-агентов, работающих с чувствительными данными; Lockdown Mode — первый детерминированный, управляемый пользователем механизм от крупной лаборатории, устраняющий звено эксфильтрации в цепочке атаки.

OpenAI запускает Dreaming V3: фоновый синтез памяти для ChatGPT с пятикратным снижением вычислительных затрат

OpenAI — Sat, 06 Jun 2026 00:00:00 +0000

4–5 июня 2026 года OpenAI начала поэтапное развёртывание Dreaming V3 — фонового процесса, который автоматически синтезирует память ChatGPT сразу из множества разговоров, заменяя ручной список сохранённых воспоминаний. Система ставит приоритет на актуальность (автоматическое обновление устаревших записей), непрерывность (связывание сессий на протяжении дней и недель) и фильтрацию по релевантности. Внутренние оценки точности фактического воспроизведения выросли с 41,5% (2024) до 82,8% (2026). Примерно пятикратное снижение вычислительных затрат делает развёртывание для бесплатного уровня экономически обоснованным; пользователи Plus и Pro в США получают доступ первыми. Почему это важно: Крупнейшая переработка памяти с момента запуска ChatGPT — молчаливый фоновый синтез означает, что пользователям теперь нужно проверять автоматически сделанные выводы, а не только явно сохранённые записи.

MLEvolve: самоэволюционирующий мультиагентный LLM-фреймворк для автоматического поиска алгоритмов машинного обучения

Sat, 06 Jun 2026 00:00:00 +0000

MLEvolve — самоэволюционирующий мультиагентный LLM-фреймворк для автоматического поиска алгоритмов машинного обучения. Представлены: Progressive Monte Carlo Graph Search (MCGS) с межветочным информационным потоком, Retrospective Memory (база знаний холодного старта + динамическая память для конкретных задач) и иерархическое планирование, разделяющее стратегию и генерацию кода. На MLE-Bench фреймворк достигает рекордного медального рейтинга при бюджете 12 часов — вдвое меньше стандартного — и превосходит AlphaEvolve на задачах оптимизации математических алгоритмов. Исходный код открыт и доступен на GitHub. Почему это важно: Автоматический поиск алгоритмов, превзошедший AlphaEvolve, свидетельствует о том, что LLM-агенты способны вести полноценные AI-исследования. Статья набрала 301 голос на HuggingFace Daily Papers — наибольший показатель за рассматриваемый период.

Конгресс США опубликовал 269-страничный проект «Great American AI Act» с трёхлетним приоритетом над законами штатов

Sat, 06 Jun 2026 00:00:00 +0000

4 июня 2026 года члены Палаты представителей Джей Обернолте (R-CA) и Лори Трахан (D-MA) опубликовали двухпартийный обсуждаемый проект Great American AI Act объёмом 269 страниц — первую комплексную федеральную систему регулирования AI в США. Ключевые положения: трёхлетний приоритет над законами штатов об AI-разработке (с истечением срока действия; законы о внедрении не затрагиваются), официальное учреждение CAISI, $100 млн в год на Центр стандартов и инноваций в области AI, требования к управлению frontier-моделями и отчётность о влиянии на рынок труда. Проект подвергается критике со стороны профсоюзов и гражданского общества из-за широты приоритета над законами штатов. Почему это важно: Первая серьёзная попытка создать федеральную систему регулирования AI в США, которая на три года заменит законы Калифорнии, Колорадо и других штатов в критически важный период развития отрасли.

Google Veo 3.1 добавляет звук во все режимы редактирования Flow и новые инструменты Insert/Remove

Google DeepMind — Sat, 06 Jun 2026 00:00:00 +0000

5 июня 2026 года Google опубликовала официальное обновление с анонсом новых возможностей Veo 3.1 в платформе видеомонтажа Flow. Обновление добавляет генерацию звука в ранее беззвучные функции — Ingredients to Video, Frames to Video и Extend — а также вводит инструменты точного редактирования: функцию Insert для добавления новых элементов сцены с реалистичным освещением и готовящийся инструмент Remove для удаления нежелательных объектов с восстановлением фона. Veo 3.1 также доступен через Gemini API и Vertex AI. С момента запуска на Flow создано более 275 миллионов видео. Почему это важно: Добавление нативного звука во все режимы редактирования Flow сокращает разрыв между AI-генерацией видео и профессиональным постпродакшном; инструменты редактирования Insert/Remove переводят Veo в категорию полноценных платформ видеомонтажа.

Детерминированный горизонт: теоретико-информационное доказательство ограничений расширенного CoT и необходимости использования инструментов

Sat, 06 Jun 2026 00:00:00 +0000

В статье доказывается теорема Attention Bottleneck Theorem, устанавливающая теоретико-информационные пределы отслеживания состояния decoder-only трансформерами в рамках чисто нейронного цепочечного рассуждения. Deterministic Horizon существует примерно на уровне 19–31 шага, после которого точность падает сверхэкспоненциально. Для 12 моделей и 8 предметных областей (SWE-Bench, WebArena, SQL-Multi) рассуждение с интеграцией инструментов достигает точности 86–94% против 24–42% для нейронного CoT. Дообучение улучшает показатели менее чем на 5%, что подтверждает архитектурный, а не обучающий характер ограничений. Принята на ICML 2026. Почему это важно: Обеспечивает строгое теоретическое обоснование необходимости агентного использования инструментов — не просто эмпирически лучшего, но доказуемо обязательного после определённого порога сложности — и закладывает принципиальную основу для проектирования агентных архитектур.

Claude Code v2.1.166: настройка резервной модели, расширенные glob-правила запрета, межсессионная безопасность

Anthropic — Sat, 06 Jun 2026 00:00:00 +0000

Claude Code v2.1.166 (впервые замечен 6 июня) добавляет настройку `fallbackModel` для конфигурации до трёх резервных моделей, перебираемых по порядку при перегрузке основной, расширенную поддержку glob в правилах запрета и усиленную безопасность межсессионных сообщений. Также отключается thinking для моделей, у которых он включён по умолчанию, через `MAX_THINKING_TOKENS=0` и переключатели для конкретных моделей. Исправлен широкий спектр ошибок терминала, аутентификации, сессий и UI, включая повторяющиеся проблемы с отрисовкой терминала JetBrains, зависания валидации команд PowerShell и сброс аутентификации в голосовом режиме. Два более ранних выпуска 5 июня (v2.1.163, v2.1.165) добавили `/plugin list` с фильтрацией, управляемые настройки `requiredMinimumVersion`/`requiredMaximumVersion` и возврат `additionalContext` из хуков. Почему это важно: Настройка резервной модели — значимое улучшение надёжности для производственных развёртываний, где доступность основной модели может быть непредсказуемой.

Audio Interaction Model: унифицированный стриминговый фреймворк, объединяющий офлайн и реальновременную обработку аудио по инструкциям

Sat, 06 Jun 2026 00:00:00 +0000

Исследователи из Национального университета Сингапура опубликовали Audio Interaction Model (AIM) — унифицированный стриминговый аудиофреймворк, объединяющий офлайн-выполнение задач (транскрипция, перевод, генерация музыки) и реальновременное следование аудиоинструкциям через сквозную архитектуру. AIM обеспечивает одновременно низкую задержку при стриминге и высокое качество офлайн-обработки аудио без отдельных моделей для каждого режима работы и набрал 101 голос на HuggingFace Daily Papers. Почему это важно: Объединение реальновременной и офлайн-обработки аудио в единой сквозной модели устраняет ключевой архитектурный компромисс, вынуждающий большинство современных систем выбирать один из режимов.

xAI Grok Voice становится движком по умолчанию для 2,5M+ голосовых агентов Vapi

xAI — Thu, 04 Jun 2026 00:00:00 +0000

xAI объявила 3 июня о партнёрстве, делающем Grok Voice движком по умолчанию для 12 основных голосов Vapi, питающим более 2,5M голосовых агентов, построенных на платформе. В слепой оценке на арене Vapi Grok Voice занял первое место по естественности и эмоциональному диапазону. Почему это важно: Сигнализирует о достижении Grok Voice качества продакшн-уровня, конкурентоспособного с ElevenLabs в корпоративном масштабе.

Windsurf переименовывается в Devin Desktop и запускает открытый Agent Client Protocol (ACP)

Cognition — Thu, 04 Jun 2026 00:00:00 +0000

Windsurf стал Devin Desktop 2 июня, представив единый Agent Command Center (Kanban), Spaces для обмена контекстом между агентами и открытый Agent Client Protocol (ACP), позволяющий сторонним агентам — включая Codex, Claude Code и OpenCode — работать внутри редактора. Devin Local, переписанный на Rust вариант Cascade, обеспечивает на 30% лучшую токен-эффективность с поддержкой субагентов. Прежний Cascade продолжает работу до 1 июля. Почему это важно: Открытый протокол ACP может стандартизировать мультиагентную интероперабельность IDE среди конкурирующих агентов написания кода, смещая рынок к платформенной модели.

ThoughtFold: интроспективное обучение предпочтениям сокращает токены рассуждения на 56% без потери точности

Thu, 04 Jun 2026 00:00:00 +0000

ThoughtFold представляет фреймворк, устраняющий избыточные шаги в крупных моделях рассуждения через интроспективное выявление ненужного поиска внутри корректных траекторий с последующей оптимизацией предпочтений против этих шагов. Применённый к DeepSeek-R1-Distill-Qwen-7B, он сокращает использование токенов примерно на 56% при сохранении точности уровня state-of-the-art. Почему это важно: Сокращает вычисления рассуждения примерно вдвое без потери точности, решая проблему избыточного мышления в обученных через RL моделях chain-of-thought.

Suno привлекает $400M в раунде Series D при оценке $5,4B и анонсирует музыкальную модель в партнёрстве с индустрией

Suno — Thu, 04 Jun 2026 00:00:00 +0000

Suno анонсировала раунд Series D на $400M под руководством Bond Capital 3 июня 2026 года, оценив компанию в $5,4B. CEO Mikey Shulman объявил о готовящейся музыкальной модели, разрабатываемой совместно с музыкальной индустрией и уже находящейся на стадии тестирования, нацеленной на урегулирование текущих авторских споров. Почему это важно: Создаёт прецедент для лицензированной AI-музыки через совместную разработку с артистами, обозначая потенциальный путь к отраслевому урегулированию споров об авторских правах в AI-музыке.

OpenAI Codex CLI v0.137.0: мульти-агент v2, корпоративные пакеты конфигурации, горячие клавиши TUI

OpenAI — Thu, 04 Jun 2026 00:00:00 +0000

Codex v0.137.0 (4 июня) добавляет горячие клавиши TUI F13–F24, корпоративное отображение ежемесячных кредитных лимитов и управляемые облаком пакеты конфигурации, сопряжение клиентов удалённого управления через RPC app-server v2, машиночитаемый вывод `codex plugin list --json` и сохранение выбора мульти-агентного v2 runtime для каждого потока. Зависимости MCP обновлены до rmcp 1.7.0. Почему это важно: Корпоративные пакеты конфигурации и улучшения мульти-агентного v2 свидетельствуют о созревании Codex CLI для продакшн-развёртываний в командах.

NVIDIA выпускает Cosmos 3: открытая омнимодальная фундаментальная модель для физического AI

NVIDIA — Thu, 04 Jun 2026 00:00:00 +0000

NVIDIA выпустила Cosmos 3 — первую полностью открытую омнимодальную фундаментальную модель для физического AI-рассуждения, обученную на 20T токенов мультимодальных данных, включая ~1B изображений, 400M видео, фоновый звук и последовательности действий. Построена на архитектуре mixture-of-transformers, объединяющей визуальное рассуждение, генерацию мира и предсказание действий; занимает первое место на восьми и более таблицах лидеров по vision-reasoning и world generation. Cosmos 3 Super и Nano сразу доступны на build.nvidia.com, Hugging Face и GitHub под лицензией OpenMDW-1.1. Почему это важно: Первая открытая фундаментальная модель, объединяющая восприятие, симуляцию мира и предсказание действий для обучения роботов и автономных транспортных средств; 8 680 голосов на HF Daily Papers.

Microsoft запускает Scout: всегда активный Autopilot AI-агент для Microsoft 365

Microsoft — Thu, 04 Jun 2026 00:00:00 +0000

Запущенный на Microsoft Build 2 июня, Scout — первый Autopilot-агент Microsoft: всегда активный AI-ассистент, интегрированный с Teams, Outlook, OneDrive и SharePoint, который проактивно планирует встречи, блокирует время в календаре и отмечает зависшие решения. Доступен через программу раннего доступа Frontier при наличии лицензий GitHub Copilot и Intune. Почему это важно: Первый корпоративный AI-агент от Microsoft, выполняющий автономные действия с календарём и рабочими процессами без явного вызова пользователем.

JetBrains публикует исходный код Mellum2: 12B MoE-модель для кодирования в мульти-модельных пайплайнах

JetBrains — Thu, 04 Jun 2026 00:00:00 +0000

JetBrains выпустила Mellum2 под лицензией Apache 2.0: модель Mixture-of-Experts на 12B параметров (2,5B активных, 64 эксперта с активацией 8 на токен), обученная на примерно 10,6T токенов для задач разработки ПО. Спроектирована как быстрая фокусная модель для маршрутизации, RAG, субагентов и высокопроизводительных функций написания кода; обеспечивает в 2 раза более быстрый инференс по сравнению с плотными моделями сопоставимого размера. Почему это важно: Первая открытая MoE-модель для кодирования от крупного вендора IDE, предназначенная для встраивания в мульти-модельные пайплайны, а не для замены frontier-моделей.

Ideogram 4.0 выходит как открытая модель text-to-image с 9,3B параметров и нативным разрешением 2K

Ideogram — Thu, 04 Jun 2026 00:00:00 +0000

Ideogram выпустила версию 4.0 3 июня 2026 года — первую открытую по весам text-to-image модель: диффузионный трансформер на 9,3B параметров с нативным разрешением 2K, поддержкой прозрачного фона, управлением компоновкой через bounding-box и лучшим в классе многоязычным рендерингом текста. Веса в квантизациях nf4 и fp8 публично доступны на Hugging Face и GitHub под лицензией, допускающей некоммерческое/коммерческое (платное) использование. Модель занимает первое место в таблице лидеров DesignArena на момент запуска. Почему это важно: Первая открытая продакшн-готовая модель, возглавившая таблицу лидеров DesignArena, — разработчики получают локально запускаемую альтернативу закрытым моделям OpenAI и Google.

Google DeepMind выпускает Gemma 4 12B: мультимодальная модель без энкодера, работающая на ноутбуке с 16 ГБ VRAM

Google DeepMind — Thu, 04 Jun 2026 00:00:00 +0000

Google DeepMind выпустила Gemma 4 12B 3 июня 2026 года — открытую мультимодальную модель без энкодера, нативно воспринимающую аудио, видео и изображения, работающую локально на ноутбуке с 16 ГБ VRAM и лицензированную под Apache 2.0. Это первая модель среднего размера со встроенной нативной поддержкой аудио, предназначенная для полностью локальных агентных рабочих процессов через стек Google AI Edge. Почему это важно: Переносит мультимодальные и аудиовозможности уровня frontier на потребительское железо без зависимости от облака; первая безэнкодерная архитектура такого масштаба.

GitHub Copilot переходит на поресурсное списание AI Credits с новым тарифом Max

GitHub — Thu, 04 Jun 2026 00:00:00 +0000

С 1 июня все тарифы GitHub Copilot перешли на потребительскую модель оплаты через GitHub AI Credits. Запущен новый уровень Copilot Max для продвинутых пользователей с расширенным включённым использованием и лимитами расходов. Пользовательские бюджетные элементы управления теперь общедоступны для организаций и корпоративных клиентов с пороговыми значениями на пользователя и email-уведомлениями. Почему это важно: Поресурсное ценообразование с бюджетными элементами управления на пользователя напрямую влияет на то, как команды планируют и контролируют затраты на AI-написание кода.

Самостоятельное десктопное приложение GitHub Copilot запускается в technical preview на Microsoft Build 2026

GitHub — Thu, 04 Jun 2026 00:00:00 +0000

Анонсированное на Microsoft Build 2 июня, приложение GitHub Copilot — это нативное десктопное приложение для Windows, Mac и Linux, запускающее агентные сессии в изолированных git worktree, предоставляющее Canvases (двунаправленные рабочие поверхности для взаимодействия человека и агента), включающее Agent Merge для автоматизированного управления жизненным циклом PR и поддерживающее локальные и облачные sandbox-среды. Доступно в technical preview для подписчиков Copilot Pro/Pro+/Business/Enterprise. Почему это важно: Самостоятельное приложение сигнализирует о позиционировании GitHub Copilot как полноценной агентной платформы, а не расширения IDE, напрямую конкурируя с Cursor и Devin Desktop.

ElevenLabs лицензирует голос и образ Stan Lee для коммерческого использования в AI

ElevenLabs — Thu, 04 Jun 2026 00:00:00 +0000

ElevenLabs анонсировала сделку с Stan Lee Universe о добавлении AI-голоса и образа покойного сооснователя Marvel в Iconic Marketplace для коммерческого лицензирования. Голос обучен на профессиональных записях; пользователи могут лицензировать его для коммерческих проектов или услышать в начитке книг в приложении Eleven Reader. Почему это важно: Продвигает основанную на согласии модель цифровых образов знаменитостей, устанавливая отраслевые нормы для посмертной коммерциализации AI-голосов.

Echo-Infinity: генерация бесконечного видео в реальном времени через обучаемый Memory Query

Thu, 04 Jun 2026 00:00:00 +0000

Echo-Infinity представляет авторегрессивный фреймворк генерации видео с обучаемым механизмом Memory Query, динамически сжимающим историю кадров через attention при постоянных вычислительных затратах независимо от длины последовательности. Подход впервые обеспечивает генерацию видео длиной 24 часа (более 1,3M кадров) в реальном времени и вводит Unified Relative RoPE для устранения разрывов при экстраполяции позиционных эмбеддингов. Почему это важно: Первая система, демонстрирующая генерацию видео бесконечной длины в реальном времени, открывающая практические применения для долгосрочной симуляции мира и воплощённого AI.

Claude Code v2.1.162: исправление уязвимости утечки OAuth-учётных данных, изоляция параллельных вызовов инструментов

Anthropic — Thu, 04 Jun 2026 00:00:00 +0000

Claude Code v2.1.162 (3 июня) добавляет поле `waitingFor` в `claude agents --json`, изоляцию параллельных вызовов инструментов (ошибка Bash больше не отменяет другие вызовы в том же пакете), а также исправления правил разрешений WebFetch, обработки путей Windows и регрессии, которая могла приводить к утечке OAuth-учётных данных на пользовательские API-шлюзы. Почему это важно: Исправление утечки OAuth-учётных данных критически важно для безопасности пользователей, запускающих Claude Code за пользовательскими конфигурациями API-шлюзов.

Trump Signs AI Executive Order Requiring 30-Day Voluntary Pre-Release Government Review

Wed, 03 Jun 2026 00:00:00 +0000

President Trump signed an executive order on June 2, 2026 directing AI companies to voluntarily submit frontier models for government security testing up to 30 days before public release. The order instructs federal agencies to develop AI cybersecurity benchmarks, establish an 'AI cybersecurity clearinghouse,' and strengthen government defenses against AI-enabled threats. An earlier draft mandated a 90-day window, cut to 30 days after industry pushback over innovation concerns. Почему это важно: First substantive AI governance action from the Trump administration after months of a largely hands-off approach; sets a precedent for voluntary pre-deployment government review that could shape global standards.

TrOPD: Trust-Region On-Policy Distillation Stabilizes LLM Training When Teacher-Student Gap Is Large

Samsung Research — Wed, 03 Jun 2026 00:00:00 +0000

TrOPD (arXiv 2606.01249, submitted May 31, 2026) addresses instability in on-policy distillation when teacher and student distributions diverge substantially — a common failure mode when distilling strong reasoning models into smaller students. The method combines trust-region-bounded training restricted to regions of reliable teacher supervision, clipping and masking for outlier handling, and off-policy forward-KL guidance to encourage exploration toward trustworthy areas. It consistently outperforms OPD, EOPD, and REOPOLD baselines on mathematical reasoning, code generation, and general benchmarks. Почему это важно: On-policy distillation is the dominant technique for building cost-efficient reasoning models from frontier teachers; TrOPD's trust-region approach offers a principled fix with broad applicability — top HuggingFace Daily Paper on June 3 with 20 upvotes.

QUBRIC: Co-Designing Queries and Rubrics Extends RLVR to Open-Ended Reasoning Domains

Wed, 03 Jun 2026 00:00:00 +0000

QUBRIC (arXiv 2606.03968) addresses a structural weakness in rubric-based RLVR: open-ended queries produce vague rubrics, but narrowing queries introduces fabricated references. The method jointly refines queries and rubrics — using teacher-derived key points to convert open-ended questions into scenario-specific ones, generating contrastive rubrics based on observed policy gaps, and filtering for informative training pairs. Results show a 5.5-point improvement on ArenaHard over SFT baselines, with 6.3-point average gains on legal, moral, and narrative reasoning. Почему это важно: Extends RL with verifiable rewards (RLVR) — which has driven recent reasoning breakthroughs — to subjective, open-ended domains where ground-truth answers do not exist, a significant step toward general-purpose reasoning models.

OpenAI Launches Rosalind Biodefense Program with GPT-Rosalind for Pandemic Preparedness

OpenAI — Wed, 03 Jun 2026 00:00:00 +0000

OpenAI announced Rosalind Biodefense on June 1, 2026 — a gated-access program offering GPT-Rosalind, a specialized life-sciences model, to vetted developers building biosecurity and pandemic preparedness applications. Initial partners include Johns Hopkins Applied Physics Laboratory and CEPI's 100 Days Mission for vaccine development acceleration. The program covers epidemiological modeling, early detection, screening, and non-pharmaceutical interventions; federal agencies with public-health and biodefense missions also receive extended access. Почему это важно: Frontier AI applied to biodefense represents one of the highest-stakes dual-use domains; OpenAI's gated specialty model for biosecurity — rather than a general-purpose one — signals a new approach to responsible deployment in sensitive domains.

OpenAI Expands Codex Beyond Developers: Sites, Annotations, and Six Role-Specific Business Plugins

OpenAI — Wed, 03 Jun 2026 00:00:00 +0000

OpenAI announced on June 2, 2026 a major expansion of Codex targeting non-developer knowledge workers. New features include Sites (creates interactive hosted web apps and dashboards from analysis), Annotations (inline collaborative editing without rebuilding projects), and six new role-specific plugins covering sales, data analytics, creative production, product design, public equity investing, and investment banking — aggregating 62 business apps including Salesforce, Figma, and Snowflake. Non-developers now account for ~20% of Codex's 5 million weekly users and are adopting at 3x the rate of engineers. Почему это важно: Positions Codex as a general enterprise productivity platform across finance, sales, and creative roles — directly competing with incumbents like Salesforce, Adobe, and Microsoft Copilot beyond its original developer audience.

MiniMax Launches Hailuo 2.3 Video Model and Expands Video Agent into Media Agent

MiniMax — Wed, 03 Jun 2026 00:00:00 +0000

MiniMax released Hailuo 2.3 on June 3, 2026 with improvements in physical action portrayal, character micro-expressions, stylization, and motion command following. A new Hailuo 2.3 Fast variant reduces batch creation costs by up to 50% at the same price as Hailuo 02. Simultaneously, MiniMax renamed and expanded the Hailuo Video Agent into the Media Agent — a multi-modal creation platform now live globally on the Hailuo AI website, mobile app, and Open Platform API, with VEED as a day-one integration partner. Почему это важно: Reinforces MiniMax as the cost-efficiency leader in video generation; the Media Agent rebranding signals a strategic push beyond video into full multi-modal creative workflows, competing with Runway and Pika at the workflow orchestration layer.

Do Language Models Need Sleep? Offline Recurrence as Memory Consolidation for Improved Inference

Google / CMU — Wed, 03 Jun 2026 00:00:00 +0000

This Google/CMU paper (arXiv 2605.26099) proposes a sleep-like memory consolidation mechanism for language models. Periodically, the model converts recent context into persistent fast weights in SSM blocks through N offline recurrent passes, then clears its KV cache. On synthetic tasks (cellular automata, multi-hop graph retrieval) and math reasoning benchmarks, increasing sleep duration N improves performance, with the largest gains on examples requiring deeper multi-step reasoning. Почему это важно: Introduces a principled mechanism for converting short-term context into long-term weights — pointing toward a new paradigm for handling very long contexts without unbounded KV cache growth, a key bottleneck for production inference.

Humanoid-GPT: Scaling to 2B Motion Frames Enables Zero-Shot Generalization in Humanoid Control

Wed, 03 Jun 2026 00:00:00 +0000

Humanoid-GPT (arXiv 2606.03985, CVPR 2026) trains a GPT-style causal Transformer on a 2-billion-frame motion corpus aggregating seven datasets for whole-body humanoid control. Scaling both data and model capacity yields a single generative model that tracks highly dynamic motions while achieving zero-shot generalization to unseen tasks — dissolving the agility-generalization tradeoff inherent to prior MLP-based trackers. Inference latency is under 1.5ms on an RTX 4090. The paper also introduces Harmonic Motion Embedding (HME) to quantify motion diversity. Почему это важно: Establishes clear GPT-style scaling laws for motion tracking, suggesting the same data-scaling recipe that worked for language applies directly to humanoid control — accepted at CVPR 2026, 18 upvotes on HuggingFace Daily Papers.

Quantifying Faithful Confidence Expression in Large Reasoning Models

Yale NLP — Wed, 03 Jun 2026 00:00:00 +0000

This Yale NLP paper (arXiv 2606.03969) investigates whether large reasoning models faithfully express their actual uncertainty. The authors compare linguistic confidence signals against three internal uncertainty measures: token probabilities, hidden states, and response sampling consistency. Key findings: (1) reasoning capability does not automatically improve calibration; (2) standard prompting techniques do not transfer to reasoning models; (3) different internal uncertainty measures yield conflicting results, revealing fragility in existing evaluation methodologies. Почему это важно: As reasoning models are deployed in high-stakes settings, faithful uncertainty communication is safety-critical. The paper establishes that large reasoning models have a distinct, unresolved calibration problem separate from general LLMs.

Claude Code v2.1.161: OTEL Labels, Parallel Tool Call Resilience, Linux Clipboard Overhaul

Anthropic — Wed, 03 Jun 2026 00:00:00 +0000

Claude Code v2.1.161 (released June 2, 2026) adds OTEL_RESOURCE_ATTRIBUTES values as metric labels for slicing usage by team and repo dimensions, improves the `claude agents` display to show done/total counts during fan-out, and collapses unused MCP claude.ai connectors by default. Key reliability fix: failed Bash commands in a parallel tool batch no longer cancel other in-flight calls. Linux fullscreen clipboard now uses wl-copy/xclip/xsel and supports both clipboard and PRIMARY selection. Additional bug fixes address managed-settings policy interference with third-party providers and background subagent stdout corruption. Почему это важно: The parallel tool call resilience fix is critical for complex agentic workflows where a single failing Bash command previously aborted the entire batch, causing silent data loss in multi-step pipelines.

ChatGPT Adds Live Job Search and Resume Formatting

OpenAI — Wed, 03 Jun 2026 00:00:00 +0000

OpenAI updated ChatGPT on June 1, 2026 to surface live job listings and freelance opportunities from Indeed, Upwork, Appstack, and web search results. Users can upload, create, and download resumes in professional formats tailored to specific job descriptions. Job search is available on Free, Go, Plus, and Pro plans in the US; resume formatting is available on all plans globally in English on web. Почему это важно: OpenAI continues expanding ChatGPT into transactional internet categories — jobs follows shopping and travel — directly competing with LinkedIn and Indeed while establishing a referral-fee monetization layer.

xAI выпускает Composer 2.5 в Grok Build для агентного кодирования

xAI — Tue, 02 Jun 2026 00:00:00 +0000

xAI выпустила Composer 2.5 внутри Grok Build 1 июня 2026 года — быструю агентную модель для кодирования, построенную на базе открытого чекпоинта Moonshot Kimi K2.5 и обученную на синтетических задачах в 25 раз больше, чем предшественница. Доступна на build.grok.com по цене $0,50 за миллион входных токенов; отличается в длительных агентных задачах, работе с JSON, вызовах инструментов и следовании сложным инструкциям. Почему это важно: Composer 2.5 существенно дешевле сопоставимых агентных моделей для кодирования при сопоставимом качестве уровня фронтира, а основа Kimi K2.5 подчёркивает растущую роль открытых китайских моделей в западных AI-продуктах.

vLLM v0.22.0: производственное укрепление DeepSeek V4, Rust-фронтенд, снижение задержки на 28,9%

Tue, 02 Jun 2026 00:00:00 +0000

vLLM v0.22.0 (выпущен 29 мая 2026 года) включает 459 коммитов от 230 контрибьюторов. Ключевые изменения: производственное укрепление DeepSeek V4 с NVFP4 fused MoE, полным CUDA graph и MTP speculative decoding; новый экспериментальный Rust-фронтенд с data-parallel serving supervisor; снижение сквозной задержки на 28,9% за счёт Cutlass FP8 batch-invariant inference; многоуровневое KV cache offloading на диск. Также добавлены оптимизации для AMD ROCm parity и NVIDIA Blackwell (SM12x). Почему это важно: DeepSeek V4 — наиболее распространённая frontier-модель для самостоятельного хостинга; полноценная поддержка в vLLM в связке со снижением задержки на 28,9% делает её значительно более пригодной для высоконагруженных развёртываний в масштабе.

Alibaba выпускает Qwen3.7-Plus: мультимодальный агент с поддержкой зрения, рассуждений и автономного выполнения задач

Alibaba / Qwen — Tue, 02 Jun 2026 00:00:00 +0000

Команда Qwen из Alibaba выпустила Qwen3.7-Plus 2 июня 2026 года, добавив нативное понимание изображений и видео к более раннему текстовому Qwen3.7-Max. Модель объединяет глубокое рассуждение, самопрограммирование, вызов инструментов, верификацию и автономную итерацию в единый агентный цикл, набирая 79 баллов на бенчмарках по пониманию экрана и превосходя GPT-5.4 и Gemini-3.1 Pro в этой задаче. Доступна через Alibaba Cloud Bailian API по цене $0.40/$1.60 за миллион входных/выходных токенов; акции Alibaba выросли более чем на 6% после объявления. Почему это важно: Первый релиз Qwen, объединяющий зрение и агентное выполнение в одной модели, что позволяет реализовывать автономные сквозные рабочие процессы — включая разработку полноценного приложения за 11 часов без участия человека — и продвигает границы китайских мультимодальных агентов.

OpenCode v1.15.13: API метаданных сессий, исправление адаптивного мышления для Anthropic Opus 4.7+

Tue, 02 Jun 2026 00:00:00 +0000

OpenCode v1.15.13 (выпущен 30 мая 2026) исправляет ошибку, при которой адаптивное мышление Opus 4.7+ через Anthropic Gateway возвращало пустые блоки thinking вместо сжатого содержимого. Сессии теперь поддерживают хранение произвольных метаданных через API и SDK для автоматизации воркфлоу. Также улучшена загрузка конфигурации: настройки, специфичные для директории, теперь применяются предсказуемее при обходе дерева директорий вверх. Почему это важно: Поддержка адаптивного мышления для Opus 4.7+ — ключевое преимущество опенсорсных coding-агентов; API метаданных открывает более богатые интеграции с CI/CD и инструментами оркестрации.

OpenAI Codex: Goal Mode выходит в GA и запуск Appshots для macOS

OpenAI — Tue, 02 Jun 2026 00:00:00 +0000

OpenAI Codex достиг общей доступности для режима Goal mode — позволяющего Codex работать над задачей часами или днями с выделенным хранилищем и отслеживанием прогресса — в приложении, расширении IDE и CLI. Отдельно для macOS запустились Appshots: нажатие обеих клавиш Command прикрепляет окно активного приложения (скриншот + текст) к текущей сессии Codex без ручного копирования. Обе функции подтверждены как GA по состоянию на конец мая 2026 года. Почему это важно: GA для Goal mode превращает Codex из реактивного ассистента в постоянного автономного агента для написания кода, напрямую конкурируя с режимом ultracode в Claude Code от Anthropic и с Devin.

OpenAI GPT-5.5, GPT-5.4 и Codex теперь в общем доступе на Amazon Bedrock

OpenAI — Tue, 02 Jun 2026 00:00:00 +0000

OpenAI GPT-5.5, GPT-5.4 и агент для написания кода Codex стали общедоступны на Amazon Bedrock 1 июня 2026 года. Цены соответствуют тарифам OpenAI без дополнительных наценок; использование засчитывается в AWS-обязательства. Корпоративные клиенты получают нативные средства безопасности AWS (IAM, VPC, KMS, CloudTrail) и инфраструктурную надёжность Bedrock; Codex поддерживает интеграции с VS Code, JetBrains и Xcode. Почему это важно: Устраняет главный барьер для корпоративного внедрения Codex, встраивая его в экосистему соответствия требованиям и закупок AWS, которой уже пользуются крупные организации; среди ранних последователей — Amgen и Autodesk.

MiniMax выпускает M3: открытая фронтирная модель с контекстом 1M токенов и архитектурой MSA

MiniMax — Tue, 02 Jun 2026 00:00:00 +0000

MiniMax официально выпустила M3 1 июня 2026 года — фронтирную открытую модель на основе новой архитектуры MiniMax Sparse Attention (MSA), поддерживающей контекстное окно в 1 миллион токенов при одной двадцатой вычислительных затрат на токен по сравнению с предыдущим поколением. Модель нативно принимает текст, изображения и видео, набирает 59,0% на SWE-Bench Pro (выше GPT-5.5 и Gemini 3.1 Pro) и доступна через API; открытые веса и технический отчёт обещаны на Hugging Face в течение 10 дней. Почему это важно: Первая китайская открытая модель, сочетающая фронтирный уровень агентного кодирования, полноценное контекстное окно в 1M токенов и нативную мультимодальность в единой архитектуре — прямой вызов ведущим закрытым моделям при стоимости 5–10% от их уровня.

Microsoft Build 2026: запуск семейства моделей MAI для GitHub Copilot без зависимости от OpenAI

Microsoft — Tue, 02 Jun 2026 00:00:00 +0000

Microsoft открыла Build 2026 в Сан-Франциско 2 июня, представив семейство моделей MAI: MAI-Code-1 (модель для кода, ориентированная на GitHub Copilot), MAI-Transcribe-1, MAI-Voice-1 и MAI-Image-2. По имеющимся данным, MAI-Code-1 сопоставима или превосходит Anthropic Claude 3.7 Sonnet на SWE-bench Verified, при этом работает с меньшими затратами на инференс в Azure — что впервые позволяет Microsoft обеспечивать работу Copilot без обращения к API OpenAI. Почему это важно: Первое собственное семейство фундаментальных моделей Microsoft означает принципиальный отказ от зависимости от OpenAI в бизнесе Copilot с оборотом более $10 млрд в год; стратегия повторяет подход Google с Gemini и способна переформатировать ценообразование на AI-инфраструктуру на рынке инструментов для разработчиков.

GrepSeek: обучение поисковых агентов для прямого взаимодействия с корпусом через команды оболочки (93 апвоута на HF)

University of Massachusetts Amherst — Tue, 02 Jun 2026 00:00:00 +0000

GrepSeek (arXiv 2605.29307) обучает LLM-агентов для поиска взаимодействовать с текстовыми корпусами через исполняемые shell-команды (grep, чтение файлов, лёгкие скрипты) вместо заранее построенных векторных индексов — парадигма называется Direct Corpus Interaction (DCI). Двухэтапный пайплайн объединяет генерацию траекторий с холодного старта с Group Relative Policy Optimization (GRPO), а движок с шардированным параллельным выполнением обеспечивает ускорение до 7,6×. Система достигает лучших результатов на семи бенчмарках открытого QA. Почему это важно: Полностью устраняет узкое место семантического индекса, позволяя агентам выполнять точное лексическое сопоставление, конъюнктивный разреженный поиск по подсказкам и многошаговое уточнение гипотез непосредственно на сырых корпусах — возможности, с которыми RAG-системы на основе эмбеддингов справляются плохо. 93 апвоута в HuggingFace Daily Papers за 1 июня.

GitHub Copilot переходит на тарификацию по AI Credits с 1 июня

Microsoft — Tue, 02 Jun 2026 00:00:00 +0000

GitHub Copilot с 1 июня 2026 года перешёл с фиксированной подписки на тарификацию по использованию через AI Credits. Все тарифы теперь включают ежемесячный пул кредитов (1 AI Credit = $0.01) с опциональным бюджетом на превышение; автодополнение кода остаётся бесплатным. Изменение вызвало волну недовольства среди разработчиков: интенсивные агентные нагрузки могут поднять индивидуальные расходы до $750+/месяц. Для высоконагруженных пользователей добавлен новый уровень Copilot Max. Почему это важно: Первый крупный пересмотр ценообразования массового ассистента программирования создаёт финансовые риски для пользователей агентных воркфлоу — и приходится на тот же день, что анонс MAI от Microsoft, что указывает на связь: новая тарификация финансирует переход от API OpenAI.

Crafter: мультиагентный фреймворк для генерации редактируемых научных иллюстраций — +16 пунктов над базовыми моделями (103 апвоута на HF)

Tsinghua University — Tue, 02 Jun 2026 00:00:00 +0000

Crafter (arXiv 2605.30611) — мультиагентная система для генерации редактируемых научных иллюстраций из разнородных входных данных (текст, маски, скетчи, ключевые элементы). Пять специализированных агентов координируются вокруг развивающейся спецификации фигуры. Система использует поиск планов на основе разнообразия, структурированные корректирующие слои и цикл «проверка — доработка», превосходя лучшую базовую модель на 16,61 пункта на PaperBanana-Bench и на 22,20 пункта на CraftBench по 279 образцам. Сопутствующий инструмент CraftEditor конвертирует растровые результаты в редактируемые SVG. Почему это важно: Автоматизирует один из наиболее трудоёмких этапов подготовки научных статей; бенчмарк CraftBench предлагает первую стандартизированную оценку генерации научных иллюстраций разных типов и условий. Лидирующая статья на HuggingFace Daily Papers за 2 июня с 103 апвоутами.

Cognition привлекает $1B при оценке $26B: Devin достигает $492M ARR

Cognition — Tue, 02 Jun 2026 00:00:00 +0000

Cognition закрыла раунд финансирования на $1B при постмани-оценке $26B 28 мая 2026 года — раунд возглавили Lux Capital, General Catalyst и 8VC. Автономный AI-кодировщик Devin достиг $492M аннуализированной выручки, демонстрируя рост 50% месяц к месяцу на протяжении шести месяцев подряд. Среди корпоративных клиентов — Mercedes-Benz, NASA, Goldman Sachs и Santander; по данным Cognition, более 90% собственного кода компании теперь пишет Devin. Почему это важно: Оценка в $26B делает Cognition одной из самых быстрорастущих компаний корпоративного ПО в истории и подтверждает: автономные AI-разработчики — это коммерчески состоявшаяся продуктовая категория, а не просто демо.

Claude Code v2.1.160: запросы подтверждения перед записью в файлы запуска оболочки и конфиги систем сборки

Anthropic — Tue, 02 Jun 2026 00:00:00 +0000

Claude Code v2.1.160 (выпуск 2 июня 2026) добавляет запросы подтверждения перед записью в файлы запуска оболочки (.zshenv, .bash_login, ~/.config/git/) и конфиги систем сборки (.npmrc, .yarnrc, .bazelrc, .devcontainer/) в режиме acceptEdits — предотвращая непреднамеренное выполнение кода через внедрение хуков запуска. В релизе также переименован триггер динамического воркфлоу с `workflow` на `ultracode`, исправлены проблемы с потерей фоновых сессий, буфером обмена в WSL и рендерингом Windows IME. Почему это важно: Усиление безопасности устраняет класс векторов атак на цепочку поставок, при которых агентный кодировщик мог непреднамеренно установить постоянные хуки выполнения; переименование триггера в `ultracode` намекает на готовящийся режим ultracode workflow.

BadHost (CVE-2026-48710): обход аутентификации через Host-заголовок в Starlette затрагивает vLLM, LiteLLM и MCP-серверы

Tue, 02 Jun 2026 00:00:00 +0000

CVE-2026-48710 «BadHost» — критическая уязвимость обхода аутентификации в Starlette (все версии до 1.0.1): неаутентифицированный атакующий получает доступ к защищённым эндпоинтам, внедряя символы /, ? или # в HTTP Host-заголовок и смещая тем самым границы разбора пути. Под удар попадают vLLM, LiteLLM, тысячи MCP-серверов и FastAPI-бэкенды AI-агентов. Решение: обновить Starlette до версии >= 1.0.1. Почему это важно: Первый широко освещённый критический CVE, нацеленный непосредственно на инфраструктуру AI-агентов: манипуляция одним заголовком открывает неаутентифицированным атакующим доступ к LLM API-ключам, внутреннему инструментарию агентов и GPU-ресурсам.

Anthropic конфиденциально подала проспект IPO S-1 в SEC при оценке ~$965 млрд

Anthropic — Tue, 02 Jun 2026 00:00:00 +0000

Anthropic конфиденциально направила черновик регистрационного заявления S-1 в SEC 1 июня 2026 года, инициировав процесс рассмотрения IPO. Подача последовала за раундом Series H на $65 млрд, поднявшим оценку post-money до ~$965 млрд; месячная выручка компании в пересчёте на год достигла примерно $47 млрд в мае 2026 года против ~$10 млрд годом ранее. Целевой датой публичного размещения назван октябрь 2026 года; к сопровождению привлечена юридическая фирма Wilson Sonsini. Почему это важно: При оценке ~$965 млрд IPO Anthropic стало бы крупнейшим размещением AI-компании в истории, выводя её в один ряд с Apple по капитализации и сигнализируя о том, что цикл строительства AI-инфраструктуры достаточно зрел для публичных рынков акций.

Anthropic расширяет Project Glasswing до ~200 партнёров и открывает доступ к Mythos Preview для критической инфраструктуры

Anthropic — Tue, 02 Jun 2026 00:00:00 +0000

2 июня Anthropic объявила о расширении Project Glasswing — своего закрытого партнёрства в области кибербезопасности — с ~50 до ~200 организаций: добавлены 150 новых участников из 15+ стран. Расширенная группа получает доступ к Claude Mythos Preview — продвинутой модели Anthropic для сканирования кодовых баз на уязвимости; ранние партнёры уже обнаружили 10 000+ дефектов безопасности высокой и критической степени серьёзности с апреля. В приоритете новые секторы: энергетика, водоснабжение, здравоохранение и телекоммуникационная инфраструктура. Почему это важно: Сигнализирует о том, что Anthropic выводит свои наиболее мощные модели в сегмент защиты от наступательных киберугроз ещё до общедоступного релиза — пока конкуренты вроде OpenAI (Rosalind biodefense) формируют параллельные программы ограниченного доступа в области безопасности.