exclusive / Наука / Авторские материалы

Ученые создали «Последний экзамен человечества», чтобы проверить пределы ИИ

Международная группа из почти 1000 исследователей, включая профессора Техасского университета A&M Тунга Нгуена, разработала новый комплексный тест для оценки возможностей искусственного интеллекта. Исследователи заметили, что существующие академические тесты, такие как MMLU, перестали бросать вызов современным системам ИИ, демонстрирующим крайне высокие результаты.

Международная группа из почти 1000 исследователей, включая профессора Техасского университета A&M Тунга Нгуена, разработала новый комплексный тест для оценки возможностей искусственного интеллекта. Исследователи заметили, что существующие академические тесты, такие как MMLU, перестали бросать вызов современным системам ИИ, демонстрирующим крайне высокие результаты.Новый тест, получивший название «Последний экзамен человечества» (HLE), включает 2500 вопросов по математике, естественным и гуманитарным наукам, древним языкам и узкоспециализированным академическим дисциплинам. Все задания разработаны так, чтобы иметь один проверяемый ответ и исключать возможность быстрого решения через поиск в интернете.

«Когда системы ИИ показывают высокие результаты в тестах для людей, возникает соблазн думать, что они понимают контекст, — сказал Нгуен. — HLE показывает, что интеллект — это не только распознавание образов, но и глубина, контекст и специализированные знания».

При первых испытаниях даже самые мощные модели ИИ испытывали трудности: GPT-4o набрал 2,7%, Claude 3.5 Sonnet — 4,1%, а модель o1 от OpenAI — 8%. Более продвинутые системы, включая Gemini 3.1 Pro и Claude Opus 4.6, достигли точности 40–50%. Для теста отбирались вопросы, на которые современные ИИ-модели не могли ответить корректно, что гарантировало сохранение сложности экзамена.

HLE не создавался как способ «победить» человека, а как инструмент для выявления слабых мест современных систем ИИ. Исследователи проверяли вопросы на экспертном уровне и исключали те, на которые модели могли ответить, чтобы экзамен оставался вызовом для ИИ.

«Высокие баллы в тестах для людей не обязательно означают подлинный интеллект, — подчеркнул Нгуен. — Это скорее показатель того, насколько ИИ может выполнять задачи, созданные для человеческого обучения».

Проект демонстрирует масштабное сотрудничество специалистов из разных дисциплин: информатики, истории, физики, лингвистики и медицины. Такой подход позволил выявить слабые места ИИ в широком спектре знаний и показать, что человеческий опыт по-прежнему уникален. Некоторые вопросы HLE опубликованы в открытом доступе, остальные остаются закрытыми, чтобы предотвратить их механическое запоминание моделями ИИ.

«HLE служит прозрачным и надежным эталоном для будущих систем ИИ и позволяет оценивать разрыв между искусственным и человеческим интеллектом», — отметил Нгуен.


📅 13-03-2026, 16:19
Читайте также
Последние новости
Популярное
{topnews period="1" sortby="news_read" limit="10" template="custom/popular"}
Работа у нас