БИЗНЕС-ТРЕНДЫ

Как победить галлюцинации генеративного интеллекта

Директор по инновациям Банка Уралсиб, председатель комитета по инновациям Ассоциации российских банков Дмитрий Гришин — о создании квазиреалистичных результатов при работе генеративных моделей с данными.
Фото: Shutterstock AI Generator/FOTODOM
  • Дмитрий Гришин
Лишние пальцы и рецепт супа из куриных жабр
Введеный в оборот Жан-Этьеном Эскиролем в 1817 году термин «галлюцинация» означает образ, возникающий в сознании без внешнего раздражителя. Применительно к генеративному интеллекту, лишенному сознания, понятие стало означать создание квазиреалистичного, ошибочного результата. Раньше это были лишние пальцы на картинке или рецепт супа из куриных жабр, но с каждым поколением сетей галлюцинации становятся все «тоньше» и все сложнее их обнаружить.

Появление галлюцинаций практически неизбежно ввиду принципа работы генеративных моделей с данными. Собранный массив данных преобразуется с помощью эмбеддинга (embedding) в векторное хранилище в виде массива чисел. Такой подход помогает улучшить работу с естественным языком. Образование галлюцинаций — это результат близкого значения векторов. Таким образом, проблема становится частью самого процесса работы с данными, ее нельзя гарантированно избежать.
Фото: Shutterstock AI Generator/FOTODOM
Экспериментальные сервисы Уралсиба
В пилотных проектах инновационной лаборатории Уралсиба мы активно экспериментируем с возможностями, которые дает генеративный интеллект, его галлюцинации могут серьезно влиять на результат. В число экспериментальных сервисов, созданных в лаборатории, входит сервис мониторинга эфира в «Телеграм» — одного из ключевых мессенджеров в РФ по числу пользователей. Отсутствие готовых инструментов таргетированной рекламы в «Телеграм» значительно сузило спектр возможностей до прямой интеграции в контент инфлюенсеров.

Сервис, созданный нами на базе ChatGPT-4, анализирует публичные чаты заданной тематики по ключевым словам для выявления потребностей в банковских продуктах, озвученных пользователями: автокредит, страховка, кредитная и дебетовая карта. Бот вступает в коммуникацию с участником, он способен обеспечить 100%-ный охват тематических чатов. Однако использование такого сервиса даже в рамках пилота ограничено. Отпуская GenAI в свободное плавание, мы не можем гарантировать, что бот сумеет адекватно отреагировать на нюансы коммуникации с клиентом, среди которых — распознавание и правильный ответ на негативное отношение пользователя.

Развитием проекта стало формирование и ведение собственных сервисов.

Генеративные модели мониторят СМИ, анализируют и генерируют оригинальный контент с соблюдением всех правил цитирования для внутренних информационных каналов банка. Сервис демонстрирует впечатляющие показатели производительности. Оператор может указать список источников, отредактировать стиль, эмоциональную коннотацию и желаемый объем текста, уточнить ключевые и стоп-слова. Фабрика промпта (информация нейросети о том, что именно требуется от нее) строит из этого запрос и менее чем за минуту получает ответ от генеративной модели.
В ПИЛОТНЫХ ПРОЕКТАХ ИННОВАЦИОННОЙ ЛАБОРАТОРИИ УРАЛСИБА МЫ АКТИВНО ЭКСПЕРИМЕНТИРУЕМ С ВОЗМОЖНОСТЯМИ, КОТОРЫЕ ДАЕТ ГЕНЕРАТИВНЫЙ ИНТЕЛЛЕКТ. В ЧАСТНОСТИ, СОЗДАЛИ СЕРВИС МОНИТОРИНГА ЭФИРА В «ТЕЛЕГРАМ»
Большие надежды
Полноценная автоматизация пока едва ли возможна из-за галлюцинаций. Система проверки анализирует пост, и, если процент вероятных ошибок выше границы, он поступает на ручную модерацию. Модератор анализирует текст на предмет отклонений от первоисточника, таких как ошибки в цитате, факте, а несоблюдение законодательства при оформлении материала влечет за собой дополнительные риски, за которые несет ответственность организация.

Мы возлагаем большие надежды на работу генеративного ИИ с кодом, например оптимизацию работы SQL-аналитиков (SQL — популярный язык программирования). Вместо привлечения SQL-аналитика сотрудник поставит задачу GPT-боту: «Выгрузи транзакции за последние 30 дней с упоминанием слова „налог“ в назначении платежа с суммой свыше 10 000 руб.».

Относительно простой и предсказуемый синтаксис языка позволяет минимизировать ошибки при написании SQL-запросов, исправлении ошибок в коде. Такой ассистент способен писать скрипты (наборы команд) по достаточно абстрактному текстовому запросу, работать с файлами, интегрироваться с системами визуального анализа, такими как Fine BI. Мы освобождаем время для более сложных задач у SQL-аналитиков, а бизнес быстрее и легче получает данные для управленческих решений.

Еще одной областью применения является автодокументирование кода. Например, посредством создания аннотаций и детальных пояснений к готовым кодам можно сделать полезными десятки старых скриптов. Такие коды могут лежать мертвым грузом на файловом сервере после ухода сотрудников и не использоваться в действующих информационных системах. Такой подход позволяет быстрее выводить на плановую производительность нового разработчика, который тратит меньше времени на понимание работы системы, работая с уже аннотированным скриптом и обращаясь к GPT за подсказками на всех этапах создания программного обеспечения.
ЧТОБЫ ЗАСТАВИТЬ МОДЕЛЬ НЕ ПРИДУМЫВАТЬ ФАКТЫ, А ИСКАТЬ СВЕДЕНИЯ В КОНКРЕТНЫХ ИСТОЧНИКАХ, ИСПОЛЬЗУЕТСЯ RAG (RETRIEVAL AUGMENTED GENERATION), КОГДА МОДЕЛЬ ПРИ ОБРАБОТКЕ ЗАПРОСА ОРИЕНТИРУЕТСЯ НЕ ТОЛЬКО НА СВОИ ВНУТРЕННИЕ ЗНАНИЯ, НО И НА ДОПОЛНИТЕЛЬНУЮ ИНФОРМАЦИЮ
Наращивая экспертизу
Чтобы заставить модель не придумывать факты, а искать сведения в конкретных источниках, используется RAG (retrieval augmented generation), когда модель при обработке запроса ориентируется не только на свои внутренние знания, но и на дополнительную информацию. Это позволяет нам использовать GPT для интеллектуального поиска информации и получения более точного ответа со ссылками на источники.

Дополнительная информация берется из специальной базы данных. Таким образом, мы ограничиваем потенциальный спектр ответов и вместо воспоминаний, приобретенных при изначальной инициализации модели, используется поисковый движок для извлечения смыслов из заданного списка источников: статей, документов и пр.

Сложно измерить, насколько именно RAG позволяет снизить галлюцинации. Принято говорить скорее о низкой вероятности галлюцинаций, нежели об их отсутствии. О полной победе над ошибками искусственного интеллекта еще речи нет. Тем не менее работа с данными в контуре в настоящее время сложно представима без имплементации RAG. Наращивание экспертизы в области внедрения GPT-поиска по базе знаний позволяет достигать определенного уровня вендоронезависимости.

Однако эффективность метода зависит от вычислительных мощностей, в особенности от современных графических ускорителей, труднодоступных для закупки из России.
Решать эту дилемму руководителям корпораций предстоит в самое ближайшее время.


Источник: платформа бизнес­сообщества «Forbes Экспертиза»


Читайте также