ViQ: текстово-выровненные дискретные визуальные представления с поддержкой произвольного разрешения (ECCV 2026)
Tencent Hunyuan
ViQ представляет фреймворк дискретного визуального представления, построенный на визуальной башне SigLIP2 с позиционно-осведомлённой, пошаговой конечной скалярной квантизацией (FSQ). Он преобразует изображения произвольного нативного разрешения в компактные дискретные коды, пригодные как для мультимодальных LLM (для понимания), так и для декодеров (для высококачественной реконструкции). Обучение проходит в два этапа: семантическое предобучение с выравниванием по тексту и дискретизация признаков через проксимальное обучение представлениям. ViQ соответствует непрерывным кодировщикам признаков на мультимодальных бенчмарках, обеспечивая при этом ускорение инференса на 20–70%. Принят на ECCV 2026.
Почему это важно
Дискретные визуальные токены являются ключевым узким местом для унифицированных моделей изображение-язык: предыдущие методы жертвовали либо качеством реконструкции ради семантики, либо наоборот. Агностичная к разрешению, текстово-выровненная квантизация ViQ устраняет этот разрыв. 80 голосов на HF Daily Papers.
Важность: 3/5
Лидирующая статья дня на HF Daily (80 голосов); принята на ECCV 2026; решает задачу агностичной к разрешению дискретной визуальной токенизации