#training
- Mean Mode Screaming: исправление патологии обучения открывает путь к 1000-слойным Diffusion Transformer research
- Prime Intellect выпускает prime-rl v0.6.0 для агентного RL на триллионно-параметрических MoE-моделях Prime Intellect research
- Model Spec Midtraining: как нормативное самопознание улучшает обобщение alignment Anthropic research
- Квантизированные модели рассуждения думают, что им нужно думать дольше, — но это не так Meta research
- TrOPD: Trust-Region On-Policy Distillation Stabilizes LLM Training When Teacher-Student Gap Is Large Samsung Research research
- FORT-Searcher: фреймворк обучающих данных, устойчивых к «срезанию углов», для агентов глубокого поиска research
- DomainShuttle: синтез видео по субъекту из текста для внутри- и междоменных сценариев research
- QUBRIC: Co-Designing Queries and Rubrics Extends RLVR to Open-Ended Reasoning Domains research
- ZPPO: дистилляция знаний через учителя-в-промптах превосходит градиентные методы для малых моделей рассуждений NVIDIA research