SciArena: тестирование ИИ для науки
Allen Institute представил специализированную платформу SciArena, предназначенную для объективной оценки эффективности ИИ-моделей в научной сфере.
В отличие от популярной Chatbot Arena, система адаптирована под академические требования: доступ предоставляется исключительно исследователям с подтвержденной публикационной активностью (от 2 работ), а перед тестированием все участники проходят обязательный часовой тренинг.
Механизм работы платформы построен на строгой методологии:
-
Пользователь формулирует научный запрос
-
Система автоматически подбирает релевантные публикации из базы Semantic Scholar
-
Две случайно выбранные модели генерируют ответы на основе предоставленных статей и собственных знаний
-
Эксперт сравнивает оба варианта в слепом режиме и выбирает оптимальный
-
Идентификация моделей раскрывается только после голосования
По текущим данным, в общем рейтинге SciArena уверенно лидирует ChatGPT o3 (1172 балла), опережая Claude Opus 4 (1080), Gemini 2.5 Pro (1063), DeepSeek R1-0528 (1062) и ChatGPT o4-mini (1054). Примечательно, что модель-лидер сохраняет первенство во всех ключевых дисциплинарных категориях: инженерные науки, медицина, естествознание, а также гуманитарные и социальные науки.
Ключевое отличие платформы от массовых сервисов – принципиально иной подход к достоверности информации. В отличие от публичных ИИ-ассистентов, которые могут ссылаться на непроверенные источники, SciArena гарантирует академическую чистоту эксперимента благодаря:
-
Контролируемой подборке литературы через Semantic Scholar
-
Экспертной валидации всех ответов
-
Специализированному отбору участников-исследователей
Разработчики отмечают, что накопленные данные помогут совершенствовать научно-ориентированные ИИ-системы, особенно в аспектах точного цитирования и работы с академическими источниками. Опыт Allen Institute может стать основой для новых стандартов в области научного ИИ.