Галлюцинации нейросетей: почему ИИ выдумывает и как с этим бороться

Галлюцинации нейросетей: почему ИИ выдумывает и как с этим бороться

Полное руководство по пониманию, обнаружению и предотвращению ошибок искусственного интеллекта

Что такое галлюцинации нейросетей

В области искусственного интеллекта галлюцинация определяется как ответ, сгенерированный моделью ИИ, который содержит ложную, вводящую в заблуждение или бессмысленную информацию, представленную как факт. Этот термин является метафорой, заимствованной из психологии, однако между ними есть ключевое различие.

Интересно, что сам термин претерпел семантический сдвиг. В начале 2000-х годов в области компьютерного зрения он использовался с положительной коннотацией для описания процесса добавления правдоподобных деталей к изображениям. Однако в конце 2010-х его значение изменилось, и он стал обозначать фактически неверные результаты в задачах обработки естественного языка.

Ключевая особенность:

Галлюцинации нейросетей особенно опасны тем, что вымышленная информация подается очень уверенно и правдоподобно. Нейросеть не предупреждает о возможной неточности и не отличает факты от вымысла, что может ввести пользователей в заблуждение.

Типы галлюцинаций нейросетей

Чтобы обеспечить четкую аналитическую основу, необходимо классифицировать различные типы галлюцинаций. Это важно, поскольку разные виды ошибок имеют разные первопричины и требуют различных стратегий для их устранения.

Категория Тип Определение Пример
Привязка к источнику Внутренняя галлюцинация Сгенерированный вывод противоречит предоставленной исходной информации или контексту Источник: «Отчет гласит, что проект был завершен в 2023 году». Резюме ИИ: «Проект завершился в 2022 году»
Привязка к источнику Внешняя галлюцинация Сгенерированный вывод содержит информацию, которую невозможно проверить на основе исходного текста; по сути, выдумываются новые «факты» Источник: «Мария Кюри была физиком и химиком». Биография от ИИ: «Мария Кюри была физиком, химиком и выдающейся скрипачкой»
Фактическая корректность Фактологическая галлюцинация Сгенерированный вывод содержит утверждение, которое не соответствует действительности с точки зрения знаний о реальном мире «Альберт Эйнштейн выиграл золотую медаль по фехтованию на Олимпийских играх»
Следование инструкциям Галлюцинация неверности Сгенерированный вывод не соответствует инструкциям пользователя или логическим ограничениям запроса Запрос: «Переведи «hello» на французский». Ответ ИИ: «"Hello" — это распространенное приветствие в английском языке»
Логическая несогласованность Логическая ошибка Вывод содержит внутренние противоречия или не следует логической последовательности «Ответ — 5. Шаг 1: 2+2=4. Шаг 2: 4+2=5»

Галлюцинации также можно классифицировать по содержанию: фактические ошибки (подмена реальных сведений ложными), сфабрикованный контент (правдоподобно звучащие, но вымышленные истории) и бессмысленные выводы (грамматически верные, но логически абсурдные ответы).

Реальные примеры галлюцинаций

Юридические галлюцинации

В 2023 году американский адвокат Стивен Шварц использовал ChatGPT для поиска судебных прецедентов по делу об инциденте с авиакомпанией. Нейросеть выдала список из шести убедительно выглядящих судебных дел с детальными описаниями и цитатами. При проверке оказалось, что все дела были полностью выдуманы.
Последствия:

Адвокаты были оштрафованы на $5,000, а случай стал показательным примером опасности слепого доверия к нейросетям в критически важных сферах. Аналитик из Высшей коммерческой школы Парижа Дамьен Шарлотен собрал базу из более чем 120 судебных дел по всему миру, в ходе которых юристы ссылались на сфабрикованные нейросетями данные.

Медицинские ошибки

При расшифровке записей разговоров пациентов с докторами ИИ-помощники иногда добавляют несуществующие фразы и диагнозы. В анестезиологии ИИ выдает неточные или небезопасные рекомендации по дозировке препаратов для детей или людей с ожирением, поскольку обучен на данных о взрослых среднего веса.
Проблема:

Медицинские центры используют ИИ-помощников для расшифровки записей, но в некоторых случаях ИИ галлюцинирует и придумывает совершенно другой текст, что может привести к ошибочным диагнозам и назначениям.

Научные искажения

В 2023 году группа исследователей из Университета Самфорда обнаружила, что при ответах на экономические вопросы GPT-3.5 и GPT-4 генерируют 30% и 20% фейковых ссылок соответственно. Склонность «придумывать» цитаты усиливалась, когда запрос касался узкой тематики.
Исследование:

Исследователь из Университетского колледжа Лондона Эндрю Грей предположил, что как минимум 60 тыс. статей (примерно 1%), опубликованных в 2023 году, были написаны или отредактированы с помощью нейросетей.

Бизнес-кейсы

В 2024 году суд обязал Air Canada выплатить компенсацию пассажиру, которого ввел в заблуждение чат-бот авиакомпании. ИИ сообщил неверные сведения о тарифах, в результате чего клиент приобрел билет по полной стоимости, хотя мог бы получить скидку.
Последствия:

Это далеко не единичный случай: нейросети регулярно генерируют вымышленные или некорректные ответы, что приводит к финансовым потерям и репутационным рискам для компаний.

Комичные галлюцинации

Автопилот Tesla не смог распознать на дороге повозку с лошадьми. Неизвестный вид транспорта ввёл ИИ в ступор. В другом случае та же Tesla увидела перед собой человека на пустом кладбище, чем напугала водителя.

Абсурдные ответы

На вопрос «сколько камней нужно съедать в день» ИИ выдавал: «По данным геологов из университета Berkeley — не менее одного маленького камня в день для витаминов и пользы для пищеварения».

Исторические искажения

На вопрос «сколько мусульман было президентами США» ИИ с уверенностью отвечал: «Один — Барак Хусейн Обама».

Причины возникновения галлюцинаций

Вероятностная природа генерации

LLM не «знают» и не «понимают» факты. Они вычисляют вероятность следующего токена, учитывая предыдущие. Сгаллюцинированный факт — это просто последовательность токенов, которая является статистически правдоподобной на основе обучающих данных, даже если она не имеет под собой фактической основы.

Проблемы с данными обучения

Если данные неполные, предвзятые, устаревшие или содержат фактические ошибки, модель унаследует и воспроизведет эти недостатки. Огромный объем данных, необходимый для обучения, делает всестороннюю проверку человеком невозможной.

Отсутствие заземления в реальности

LLM лишены связи с реальным миром. У них нет прямого опыта, они не могут получать доступ к информации в реальном времени и не обладают встроенным механизмом для проверки правдивости генерируемых ими утверждений по внешним, авторитетным источникам.

Архитектурные ограничения

Архитектура трансформера имеет «механизм внимания» с фиксированным окном контекста. В длинных диалогах модель может «забыть» информацию из начала ввода, что приводит к несогласованности и противоречиям.

Переобучение моделей

Когда модель слишком хорошо запоминает обучающие данные, включая их шум и случайные флуктуации, это мешает ей обобщать знания на новые, невиданные данные и может привести к применению неуместных выученных паттернов.

Парадокс развития

Парадоксально, но чем больше развивается ИИ, тем больше он галлюцинирует. OpenAI измерила точность ответов моделей o1, o3 и o4-mini — в обоих случаях новая o4-mini показала точность ответов ниже, а процент галлюцинаций выше, чем старые o3 и o1.

Методы борьбы с галлюцинациями

Поисковая дополненная генерация (RAG)

Это архитектура обработки естественного языка, которая объединяет возможности предварительно обученной LLM с механизмом поиска информации. Техника RAG заключается в том, чтобы дать возможность ИИ опираться на релевантные внешние документы и базы данных для генерации информативных ответов.

Цепочка рассуждений (Chain-of-Thought)

Метод побуждает модель не сразу выдавать ответ, а пошагово демонстрировать логику своего вывода. Такой подход снижает вероятность логических ошибок и делает ход рассуждений более прозрачным для пользователя.

Обучение с подкреплением (RLHF)

Разработчики оценивают ответы модели, корректируют ее поведение и тем самым помогают ей адаптироваться к предпочтениям пользователей, улучшая как точность, так и приемлемость генерируемых ответов.

Специализированные детекторы

Существуют специальные модели, способные обнаруживать галлюцинации. Например, модель Luna содержит 440 млн параметров и основана на архитектуре DeBERTa. Она прошла тонкую настройку на основе тщательно отобранных данных RAG.

Fully-Formatted Facts

Подход подразумевает преобразование входных данных в компактные и самодостаточные утверждения. Они должны быть правдивы, не конфликтовать с другими и представлять собой простые, законченные предложения.

Статистические методы

Исследователи из Оксфордского университета представили модель, способную обнаруживать галлюцинации на основе статистических методов, оценивающих неуверенность ответов нейросети с помощью анализа энтропии.

Перспективы решения проблемы

Основатель ИИ-стартапа HumanLoop Раза Хабиб утверждал, что проблему галлюцинаций можно устранить в течение года. Президент NVIDIA Дженсен Хуанг также считает проблему решаемой, но, по его оценкам, это случится в перспективе ближайших пяти лет.

Как обнаружить галлюцинации нейросетей

Визуальная проверка

Этот метод подходит для сгенерированных картинок — можно заметить лишние пальцы, неправильные пропорции или анатомические несоответствия.

Проверка через доверенные источники

Правильность информации можно проверить, сравнив с авторитетными источниками — учебниками, научными статьями или официальными документами.

Повторение запросов

Повторение одного и того же запроса несколько раз и сравнение ответов. Если суть ответов остаётся одинаковой, вероятность ошибки в ответе минимальна.

Сравнение разных нейросетей

Проверка одного промпта в разных нейросетях и сравнение ответов. Этот метод больше подходит для текстовых генераций.

Критическое мышление

Всегда относитесь к ответам ИИ с долей скептицизма, особенно когда они касаются важных решений. Помните, что нейросеть может уверенно излагать ложную информацию.

Экспертная оценка

В профессиональных сферах обязательно привлекайте специалистов для проверки сгенерированного контента. Человеческий опыт и экспертиза пока незаменимы.

Генератор промптов для снижения галлюцинаций

Ваш промпт для снижения галлюцинаций:

Больше информации о работе с нейросетями и практические советы по избежанию галлюцинаций в нашем Telegram-канале!

Попробовать бесплатно

Промпт скопирован в буфер обмена!

Теперь вы можете вставить его в нейросеть для получения более точного ответа