vLLM v0.20.0 — третий релиз за две недели

vLLM 27 апреля выпустила v0.20.0 — третью версию за полмесяца после v0.18.0 и v0.19.0. Линейка апреля принесла gRPC serving, GPU-accelerated speculative decoding, advanced KV-cache offloading, полную поддержку Gemma 4 (E2B/E4B/26B MoE/31B Dense с MoE-роутингом, мультимодальностью, reasoning traces и tool use), а async scheduler — overlap engine scheduling с GPU execution — теперь включён по умолчанию.

Почему это важно

Высокая частота релизов закрывает нишу production-ready inference для свежих open-моделей — конкурент TensorRT-LLM и SGLang по скорости поддержки новых архитектур.

Importance: 2/5

Minor inference-release из активной серии.

#inference
#vllm
#v0.20.0
#release

Источники

[official] GitHub Releases — vllm-project/vllm
[secondary] Fazm — vLLM Update April 2026