#gemma
- Google DeepMind выпускает Gemma 4 12B: мультимодальная модель без энкодера, работающая на ноутбуке с 16 ГБ VRAM Google DeepMind models-llm
- Google выпускает DiffusionGemma: открытая модель на 26B с генерацией текста в 4× быстрее Google DeepMind models-llm
- Google DeepMind публикует QAT-чекпоинты Gemma 4: модель E2B занимает менее 1 ГБ на устройстве Google DeepMind models-llm
- vLLM v0.23.0: Model Runner V2 по умолчанию для Llama и Mistral, Transformers v5, многоуровневый KV-кэш tools
- Ollama v0.23.1: MTP-спекулятивное декодирование Gemma 4 даёт ускорение в 2× на Apple Silicon tools