DV-World — бенчмарк агентов визуализации данных
BAAI
DV-World — бенчмарк из 260 задач для оценки агентов визуализации данных в условиях, приближённых к продакшну. Включает три части: DV-Sheet (нативные операции в таблицах с построением визуализаций и дашбордов и их починкой), DV-Evolution (перенос визуальных дизайнов между языками и контекстами данных) и DV-Interact (выравнивание с неоднозначными пользовательскими требованиями через симуляцию). Оценка комбинирует Table-value Alignment для численной точности и MLLM-as-a-Judge с рубриками для семантико-визуальной оценки; SOTA-модели набирают менее 50%.
Почему это важно
65 upvotes на HF Daily 29 апреля; показывает, что даже у топ-MLLM большой gap на рутинной задаче «сделай нормальный график из таблички».
Importance: 2/5
Бенчмарк, выявляющий gap у frontier-MLLM на практической задаче.