local-llm — AI Digest

8 июн Google DeepMind публикует QAT-чекпоинты Gemma 4: модель E2B занимает менее 1 ГБ на устройстве Google DeepMind models-llm
15 мая Ollama v0.24.0: интеграция с Codex App и улучшения MLX-семплера Ollama tools
16 мая llama.cpp b9161/b9169: совместимость с Codex CLI и мультимодальная поддержка Qwen3A ggml-org tools
9 июн Ollama v0.30.7: поддержка Hermes Desktop, Gemma 4 QAT и Nemotron-3-Ultra Ollama tools
11 июн llama.cpp b9589–b9592: исправление синхронизации CUDA SSM и оптимизация памяти Mamba tools
17 июн Ollama v0.30.9: поддержка Cohere2Moe, исправлен баг с одиночным токеном в coding-агентах tools
17 июн llama.cpp, сборки от 16 июня: спекулятивное декодирование Eagle3, память Vulkan UMA, исправления NVFP4 tools