efficiency — AI Digest

12 мая Qwen-Image-2.0: Unified Image Generation and Editing at 2K Resolution, Top-1 on AI Arena Alibaba research
13 мая Baidu Releases ERNIE 5.1 at 6% of Industry Pre-Training Cost, Enters Global Top-10 Search Baidu models-llm
26 июн JetSpec: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting Hao AI Lab, UC San Diego research
11 июн Kwai Keye-VL-2.0: Open-Source 30B MoE Multimodal Model with 256K Context for Long Video Kwai research
14 июн MiniMax Sparse Attention: 28× Compute Reduction at 1M-Token Context with No Quality Loss MiniMax research
21 июн Moebius: 0.2B Lightweight Image Inpainting Framework Matches 11.9B FLUX Model Huazhong University of Science and Technology research
16 мая Orthrus: 7.8x Inference Speedup for Qwen3 via Autoregressive-Diffusion KV Sharing research
16 мая SANA-WM: Minute-Scale 720p World Modeling on a Single GPU NVIDIA research
4 июн ThoughtFold: Introspective Preference Learning Cuts Reasoning Tokens by 56% Without Accuracy Loss research
16 июн FastContext: Specialized Exploration Subagent Cuts Coding Agent Token Usage by 60% Microsoft / Shanghai Jiao Tong University research
25 июн Quantized Reasoning Models Think They Need to Think Longer, but They Do Not Meta research
25 июн Are We Ready For an Agent-Native Memory System? SJTU Benchmarks 12 Architectures research
9 июн On the Geometry of On-Policy Distillation: A Training Paradigm Distinct from SFT and RLVR Hong Kong University of Science and Technology research
24 июн SHERLOC: Structured Diagnostic Localization Cuts Code Repair Token Usage by 36.7% research
26 июн OPRD: On-Policy Representation Distillation for Post-Training LLMs research