AutoResearchBench — бенчмарк AI-агентов в научном поиске

BAAI с соавторами представили AutoResearchBench — бенчмарк из двух режимов: Deep Research (итеративный поиск конкретной целевой статьи) и Wide Research (сборка коллекций статей по заданным критериям). На бенчмарке топовые LLM достигают всего 9.39% accuracy в Deep Research и 9.31% IoU в Wide Research, многие сильные бейзлайны падают ниже 5%. Задачи требуют глубокого понимания научных концепций и тонкой работы с деталями.

Почему это важно

Резкий контраст с маркетинговыми «AI scientist»-цифрами: реальные SOTA-агенты на серьёзном научном поиске пока ниже 10%.

Importance: 2/5

Заметный benchmark-релиз с сильным сигналом против overclaiming.

Почему это важно

Источники