AutoResearchBench — бенчмарк AI-агентов в научном поиске
BAAI
BAAI с соавторами представили AutoResearchBench — бенчмарк из двух режимов: Deep Research (итеративный поиск конкретной целевой статьи) и Wide Research (сборка коллекций статей по заданным критериям). На бенчмарке топовые LLM достигают всего 9.39% accuracy в Deep Research и 9.31% IoU в Wide Research, многие сильные бейзлайны падают ниже 5%. Задачи требуют глубокого понимания научных концепций и тонкой работы с деталями.
Почему это важно
Резкий контраст с маркетинговыми «AI scientist»-цифрами: реальные SOTA-агенты на серьёзном научном поиске пока ниже 10%.
Importance: 2/5
Заметный benchmark-релиз с сильным сигналом против overclaiming.