#local-llm
- Google DeepMind публикует QAT-чекпоинты Gemma 4: модель E2B занимает менее 1 ГБ на устройстве Google DeepMind models-llm
- Ollama v0.24.0: интеграция с Codex App и улучшения MLX-семплера Ollama tools
- llama.cpp b9161/b9169: совместимость с Codex CLI и мультимодальная поддержка Qwen3A ggml-org tools
- Ollama v0.30.7: поддержка Hermes Desktop, Gemma 4 QAT и Nemotron-3-Ultra Ollama tools
- llama.cpp b9589–b9592: исправление синхронизации CUDA SSM и оптимизация памяти Mamba tools
- Ollama v0.30.9: поддержка Cohere2Moe, исправлен баг с одиночным токеном в coding-агентах tools
- llama.cpp, сборки от 16 июня: спекулятивное декодирование Eagle3, память Vulkan UMA, исправления NVFP4 tools