Tencent Hunyuan публикует в открытый доступ UniRL: унифицированное RL-дообучение для LLM и диффузионных моделей

Tencent / Hunyuan

исследования официальный 1 ист. ~1 мин

Команда Tencent Hunyuan выпустила UniRL — фреймворк с открытым исходным кодом для унифицированного RL-дообучения LLM, визуально-языковых моделей и диффузионных/flow-matching-моделей. Он реализует единый цикл «генерация–оценка–преимущество–обновление–синхронизация», применимый к разнородным семействам моделей. В комплекте поставляются два алгоритма: Flow-DPPO для диффузионных/flow-моделей с масками доверительной области на основе точной дивергенции и DRPO для LLM со сглаженным квадратичным регуляризатором, взвешенным по преимуществу.

Почему это важно

RL-дообучение стало доминирующим путём к качеству фронтирных моделей. UniRL — один из первых публичных фреймворков, объединяющих этот пайплайн для семейств моделей текста, зрения и генерации изображений в единой кодовой базе.

Важность: 2/5

Первый публичный унифицированный фреймворк RL-дообучения, охватывающий LLM и диффузионные модели, от Tencent Hunyuan

reinforcement-learning post-training open-source diffusion rlhf framework

Источники

официальный Tencent-Hunyuan/UniRL | GitHub