training — AI Digest

11 мая Mean Mode Screaming: исправление патологии обучения открывает путь к 1000-слойным Diffusion Transformer research
24 июн Prime Intellect выпускает prime-rl v0.6.0 для агентного RL на триллионно-параметрических MoE-моделях Prime Intellect research
8 мая Model Spec Midtraining: как нормативное самопознание улучшает обобщение alignment Anthropic research
25 июн Квантизированные модели рассуждения думают, что им нужно думать дольше, — но это не так Meta research
3 июн TrOPD: Trust-Region On-Policy Distillation Stabilizes LLM Training When Teacher-Student Gap Is Large Samsung Research research
12 июн FORT-Searcher: фреймворк обучающих данных, устойчивых к «срезанию углов», для агентов глубокого поиска research
25 июн DomainShuttle: синтез видео по субъекту из текста для внутри- и междоменных сценариев research
3 июн QUBRIC: Co-Designing Queries and Rubrics Extends RLVR to Open-Ended Reasoning Domains research
17 июн ZPPO: дистилляция знаний через учителя-в-промптах превосходит градиентные методы для малых моделей рассуждений NVIDIA research