Новости

ИИ против простых часов: новый бенчмарк ClockBench показал, что даже лучшие модели с трудом читают время со стрелок

ИИ против простых часов: новый бенчмарк ClockBench показал, что даже лучшие модели с трудом читают время со стрелок
Крупные языковые модели (LLM) и мультимодальные ИИ научились описывать изображения и решать сложные задачи, но не могут справиться с базовым человеческим навыком — точным чтением времени с аналоговых часов. Это доказал специализированный бенчмарк ClockBench.

Результаты оказались шокирующими:

  • Лучшая модель (Gemini 2.5 Pro) справилась лишь с 13,3% вопросов.
  • Люди-испытатели показали результат в 89,1% правильных ответов.
  • Медианная ошибка ИИ составляла целый час, в то время как люди ошибались в среднем всего на 3 минуты.

Что такое ClockBench?

Это не просто набор картинок с часами. Датасет включает 180 уникальных комбинаций: 36 типов циферблатов (с римскими цифрами, 24-часовые, с рисунками, без цифр) по 5 положений стрелок. Для каждой комбинации ИИ должен был ответить на 4 вопроса:

  1. Прочитать время и определить, валидно ли оно (согласовано ли положение стрелок).
  2. Выполнить арифметические действия (прибавить/вычесть время).
  3. Повернуть стрелку на заданный угол.
  4. Перевести время между часовыми поясами.

Ключевые проблемы ИИ:

  • Нестандартные циферблаты — главный камень преткновения. Модели путались при виде римских цифр, 24-часового формата, секундных стрелок или декоративного оформления.
  • Отсутствие пространственного мышления. Задача требует рассуждений прямо в визуальном пространстве, а не анализа текста. ИИ не хватает способности мысленно «вращать» стрелки и точно определять их положение.
  • Невозможность отличить валидное время от невалидного. Модели часто не замечали абсурдных положений стрелок (например, когда часовая стрелка не соответствует минутной).

Почему это важно?

Этот провал демонстрирует фундаментальную слабость современных мультимодальных нейросетей: они прекрасно генерируют текст на основе изображений, но не обладают глубинным пониманием и reasoning-способностями (способностью к рассуждениям). Они не строят внутреннюю ментальную модель объекта, как это делает человек.

Провал в ClockBench ставит перед исследователями ключевой вопрос: решается ли эта проблема простым увеличением масштаба моделей и данных (scaling), или для её решения необходимы совершенно новые архитектурные подходы?

P.S. Если вам интересно узнавать об таких неочевидных и творческих аспектах искусственного интеллекта, поддержите автора — подпишитесь на канал «сбежавшая нейросеть».
2025-09-08 06:59 Новости