post-training — AI Digest

10 июн DRPO: переосмысление дивергентной регуляризации в обучении с подкреплением для LLM Tencent Hunyuan research
11 июн Анатомия пост-обучения: использование интерпретируемости для аудита и исправления данных предпочтений research
26 июн OPRD: дистилляция представлений на политике для пост-обучения LLM research
28 июн Tencent Hunyuan публикует в открытый доступ UniRL: унифицированное RL-дообучение для LLM и диффузионных моделей Tencent / Hunyuan research