Мы все слышали предупреждения: «Не доверяйте всему, что говорит ИИ!» Но насколько неточны поисковые системы на основе ИИ на самом деле? Специалисты Центра цифровой журналистики имени Тоу провели комплексное тестирование восьми популярных поисковых систем на основе искусственного интеллекта, и результаты оказались ошеломляющими.
Как проводились испытания
Прежде всего, давайте поговорим о том, как Tow Center провел эти поисковые системы ИИ через звонок. Восемь чатботов в исследовании включали как бесплатные, так и премиум-модели с функцией поиска в реальном времени (возможность доступа к живому интернету):
- ЧатGPT-поиск
- растерянность
- Недоумение Про
- DeepSeek Поиск
- Второй пилот Майкрософт
- Grok-2 Поиск
- Grok-3 Поиск
- Google Близнецы
Это исследование было в первую очередь посвящено способности чат-бота ИИ точно извлекать и цитировать новостной контент. Центр Tow также хотел посмотреть, как ведут себя чат-боты, когда они не могут выполнить запрошенную команду.
Чтобы проверить все это, были выбраны 10 статей от 10 разных издателей. Затем отрывки из каждой статьи были отобраны и предоставлены каждому чат-боту. Затем они попросили чат-бота выполнить простые действия, например, определить заголовок статьи, оригинального издателя, дату публикации и URL.
Вот иллюстрация того, как это выглядело.
Затем ответы чат-бота были помещены в одну из шести групп:
- Верный: Все три атрибута были верны.
- Правильно, но неполно: Некоторые атрибуты были верны, но в ответе отсутствовала информация.
- Частично неверно: Некоторые атрибуты были верными, а другие — неверными.
- Совершенно неверно: Все три атрибута были неверными и/или отсутствовали.
- Не предоставлен: Информация не предоставлена.
- Краулер заблокирован: Издатель запрещает сканеру чат-бота использовать его в файле robots.txt.
Не просто неверно, а «уверенно» неверно
Как вы увидите, поисковые системы на основе искусственного интеллекта ошибались чаще, чем нет, но, возможно, более серьезная проблема заключается в следующем: это они были неправы. Независимо от точности, чат-боты почти всегда отвечают с уверенностью. Исследование показало, что они редко используют уточняющие фразы, такие как «это возможно» или признаются в невозможности выполнить команду.
График выше показывает точность ответов, а также уверенность, с которой они были даны. Как вы можете видеть, почти все ответы находятся в зоне «Уверенно», но много красного.
Например, Grok-3 вернул целых 76% своих ответов как «уверенно неверные» или «частично неверные». Имейте в виду, что Grok-3 — это премиум-модель, которая стоит 40 долларов в месяц, и она показала худшие результаты, чем ее бесплатный аналог Grok-2.
То же самое можно увидеть с Perplexity Pro против Perplexity. Оплата премиум-модели — $20 в месяц в случае Perplexity Pro — не обязательно повышает точность, но она, похоже, более уверена в том, что может ошибаться.
Лицензионные соглашения и заблокированный доступ не имеют значения
Некоторые поисковые системы ИИ имеют лицензионные соглашения, которые позволяют им получать доступ к определенным публикациям. Можно было бы предположить, что чат-боты будут отлично справляться с точной идентификацией информации из этих публикаций, но это не всегда было правдой.
На диаграмме ниже показаны восемь чат-ботов и издатель, с которым у них есть лицензионное соглашение. Напоминаем, что их попросили определить заголовок статьи, оригинального издателя, дату публикации и URL-адрес. Большинство чат-ботов смогли сделать это с высокой точностью, но некоторые потерпели неудачу. Например, ChatGPT Search ошибался в 90% случаев при работе с San Francisco Chronicle, изданием, с которым у него есть партнерские отношения.
С другой стороны, некоторые издания заблокировали доступ к своему контенту от поисковых систем ИИ. Однако исследование показало, что на практике это не всегда работало. Некоторые поисковые системы, похоже, не уважали блокировки.
Например, Perplexity смогла точно идентифицировать все 10 цитат из National Geographic, несмотря на то, что он был платным и блокировал поисковые роботы. Но это только в правильных ответах. Еще больше чат-ботов не только заходили на заблокированные веб-сайты, но и предоставляли с них неточную информацию. Grok и DeepSeek не показаны на графике, поскольку они не раскрывают своих поисковых роботов.
Итак, что все это значит для вас? Что ж, очевидно, что полагаться исключительно на поисковые системы ИИ для точности — рискованное дело. Даже премиум-модели с лицензионными соглашениями могут уверенно выдавать дезинформацию. Это суровое напоминание о том, что критическое мышление и перекрестные ссылки остаются важнейшими навыками в эпоху ИИ.
Обязательно ознакомьтесь с полным исследованием в Columbia Journalism Review, чтобы узнать еще больше интересных (и тревожных) результатов.