#quantization
- Google DeepMind публикует QAT-чекпоинты Gemma 4: модель E2B занимает менее 1 ГБ на устройстве Google DeepMind models-llm
- ViQ: текстово-выровненные дискретные визуальные представления с поддержкой произвольного разрешения (ECCV 2026) Tencent Hunyuan research
- LongLive-2.0: параллельная инфраструктура NVFP4 для генерации длинных видео (NVIDIA, 1220 апвоутов на HF) NVIDIA research
- Квантизированные модели рассуждения думают, что им нужно думать дольше, — но это не так Meta research
- llama.cpp b9603: OpenCL-ядра Qualcomm Adreno для инференса на устройстве ggml-org tools