30 апреля 2026

TIDE: кросс-архитектурная дистилляция для диффузионных LLM

Peking University

✓ verified 2 src ⏱ 1 мин research

TIDE — фреймворк дистилляции, переносящий знания между разными архитектурами для diffusion-LLM. Включает три компонента: TIDAL (адаптивная сила дистилляции по timestep'ам), CompDemo (контекст через mask splitting) и Reverse CALM (cross-tokenizer objective). Учители — плотный 8B и MoE на 16B, ученик — 0.6B диффузионная модель; HumanEval ученика 48.78 против 32.3 у AR baseline того же размера.

Почему это важно

Diffusion-LLM остаются маргинальной, но активно растущей альтернативой autoregressive-моделям. Кросс-архитектурный distillation от плотного teacher → MoE → диффузионный student — редкое сочетание, и заметный прыжок на code-бенчмарках при 0.6B параметрах делает идею практически интересной для on-device.

Importance: 2/5

Узкое исследовательское направление, без явных upvote-сигналов на HF Daily.

Источники