vLLM v0.20.0 — третий релиз за две недели
vLLM
vLLM 27 апреля выпустила v0.20.0 — третью версию за полмесяца после v0.18.0 и v0.19.0. Линейка апреля принесла gRPC serving, GPU-accelerated speculative decoding, advanced KV-cache offloading, полную поддержку Gemma 4 (E2B/E4B/26B MoE/31B Dense с MoE-роутингом, мультимодальностью, reasoning traces и tool use), а async scheduler — overlap engine scheduling с GPU execution — теперь включён по умолчанию.
Почему это важно
Высокая частота релизов закрывает нишу production-ready inference для свежих open-моделей — конкурент TensorRT-LLM и SGLang по скорости поддержки новых архитектур.
Importance: 2/5
Minor inference-release из активной серии.