#post-training
- DRPO: переосмысление дивергентной регуляризации в обучении с подкреплением для LLM Tencent Hunyuan research
- Анатомия пост-обучения: использование интерпретируемости для аудита и исправления данных предпочтений research
- OPRD: дистилляция представлений на политике для пост-обучения LLM research
- Tencent Hunyuan публикует в открытый доступ UniRL: унифицированное RL-дообучение для LLM и диффузионных моделей Tencent / Hunyuan research