speculative-decoding — AI Digest

26 июн JetSpec: преодоление потолка масштабирования спекулятивного декодирования с помощью параллельного построения деревьев черновиков Hao AI Lab, UC San Diego research
6 мая SGLang v0.5.11: Speculative Decoding V2 по умолчанию и поддержка восьми новых архитектур tools
16 мая Orthrus: 7,8-кратное ускорение инференса для Qwen3 за счёт совместного использования KV-кеша AR и диффузии research
18 мая vLLM v0.21.0: MLA-бэкенд для Blackwell, KV-выгрузка через HMA, speculative decoding для reasoning-моделей vLLM Project tools
6 мая Ollama v0.23.1: MTP-спекулятивное декодирование Gemma 4 даёт ускорение в 2× на Apple Silicon tools
17 июн llama.cpp, сборки от 16 июня: спекулятивное декодирование Eagle3, память Vulkan UMA, исправления NVFP4 tools