quantization — AI Digest

8 июн Google DeepMind публикует QAT-чекпоинты Gemma 4: модель E2B занимает менее 1 ГБ на устройстве Google DeepMind models-llm
28 июн ViQ: текстово-выровненные дискретные визуальные представления с поддержкой произвольного разрешения (ECCV 2026) Tencent Hunyuan research
19 мая LongLive-2.0: параллельная инфраструктура NVFP4 для генерации длинных видео (NVIDIA, 1220 апвоутов на HF) NVIDIA research
25 июн Квантизированные модели рассуждения думают, что им нужно думать дольше, — но это не так Meta research
12 июн llama.cpp b9603: OpenCL-ядра Qualcomm Adreno для инференса на устройстве ggml-org tools