ViQ: текстово-выровненные дискретные визуальные представления с поддержкой произвольного разрешения (ECCV 2026)

Tencent Hunyuan

исследования офиц. + СМИ 2 ист. ~1 мин

ViQ представляет фреймворк дискретного визуального представления, построенный на визуальной башне SigLIP2 с позиционно-осведомлённой, пошаговой конечной скалярной квантизацией (FSQ). Он преобразует изображения произвольного нативного разрешения в компактные дискретные коды, пригодные как для мультимодальных LLM (для понимания), так и для декодеров (для высококачественной реконструкции). Обучение проходит в два этапа: семантическое предобучение с выравниванием по тексту и дискретизация признаков через проксимальное обучение представлениям. ViQ соответствует непрерывным кодировщикам признаков на мультимодальных бенчмарках, обеспечивая при этом ускорение инференса на 20–70%. Принят на ECCV 2026.

Почему это важно

Дискретные визуальные токены являются ключевым узким местом для унифицированных моделей изображение-язык: предыдущие методы жертвовали либо качеством реконструкции ради семантики, либо наоборот. Агностичная к разрешению, текстово-выровненная квантизация ViQ устраняет этот разрыв. 80 голосов на HF Daily Papers.

Важность: 3/5

Лидирующая статья дня на HF Daily (80 голосов); принята на ECCV 2026; решает задачу агностичной к разрешению дискретной визуальной токенизации

multimodal visual-tokenization quantization representation-learning eccv-2026

Источники

официальный ViQ: Text-Aligned Visual Quantized Representations at Any Resolution | arXiv

СМИ ViQ | HuggingFace Daily Papers (80 upvotes)