#speculative-decoding
- JetSpec: преодоление потолка масштабирования спекулятивного декодирования с помощью параллельного построения деревьев черновиков Hao AI Lab, UC San Diego research
- SGLang v0.5.11: Speculative Decoding V2 по умолчанию и поддержка восьми новых архитектур tools
- Orthrus: 7,8-кратное ускорение инференса для Qwen3 за счёт совместного использования KV-кеша AR и диффузии research
- vLLM v0.21.0: MLA-бэкенд для Blackwell, KV-выгрузка через HMA, speculative decoding для reasoning-моделей vLLM Project tools
- Ollama v0.23.1: MTP-спекулятивное декодирование Gemma 4 даёт ускорение в 2× на Apple Silicon tools
- llama.cpp, сборки от 16 июня: спекулятивное декодирование Eagle3, память Vulkan UMA, исправления NVFP4 tools