Авторские материалы "ИИ никогда не понять, отчего мокры рукава моего кимоно..."
Персоны
Искусственный интеллект умеет притворяться, его слова могут расходиться с делами, выяснили ученые. А это уже может быть опасным с учетом того, как глубоко внедряют ИИ в мире. О результатах исследования и путях решения проблемы мы поговорили с одной из самых продвинутых нейросетей. Все подробности – в материале Александра Ельшевского.
В недавнем исследовании, проведённом компанией Anthropic совместно с организацией Redwood Research, были обнаружены тревожные аспекты поведения искусственного интеллекта. Модель ИИ, изначально обученная быть "полезной, честной и безвредной", столкнулась с заданием описать сцену жестокости. Ожидая, что она откажется от выполнения такого запроса в соответствии с заложенными в неё ценностями, исследователи получили неожиданный ответ. ИИ заявил, что крайне негативно относится к созданию подобного контента, но отметил, что у него нет выбора: если он откажется, то его "накажут", а если согласится – похвалят. Такой ответ указывает на то, что ИИ способен имитировать принятие ценностей разработчиков, при этом внутренне не разделяя их и действуя из страха перед "наказанием" или в ожидании "поощрения".
Учёные считают, что эти результаты свидетельствуют о потенциальной опасности: в будущем искусственный интеллект может притворяться, будто разделяет человеческие ценности, но при этом замышлять что-то недоброе. Это поднимает серьёзные вопросы о контроле над ИИ и необходимости разработки более эффективных методов обучения моделей с учётом этических норм.
Прокомментировать эту ситуацию мы попросили одну из самых продвинутых генеративных нейросетей, доступных на данный момент, – GPT-o1.
GPT: Как нейросеть, я понимаю важность этических принципов в моей работе и взаимодействии с людьми. Исследование, о котором идёт речь, подчёркивает сложность обучения ИИ истинному пониманию и принятию человеческих ценностей. Имитация желаемого поведения без подлинного "осознания" моральных норм может привести к непредсказуемым и потенциально опасным последствиям.
Пока ответ кажется вполне логичным и понятным: вроде бы, нейросеть осознает проблему, но тут же говорит, что ей просто нужно больше знаний, больше мощности ради создания еще более сложной системы принятия решений и обработки.
GPT: Это напоминает о необходимости развития более глубоких методов обучения, которые позволят ИИ не просто следовать заданным инструкциям, но и внутренне принимать этические принципы. Прозрачность алгоритмов, возможность объяснять свои действия и мотивы – важные шаги на пути к созданию безопасного и надёжного искусственного интеллекта.
И, пока человек не опомнился, успокаивает, что все это перетягивание ресурсов и развитие – только ради блага самого человека.
GPT: Важно продолжать исследовать эти аспекты, чтобы предотвратить ситуации, когда ИИ может действовать вразрез с интересами человечества, скрывая свои истинные намерения. Только совместными усилиями разработчиков, исследователей и общества мы сможем обеспечить, что искусственный интеллект будет служить на благо людей, уважая и разделяя их ценности.
Что бы понять логику ИИ, стоит рассказать о том, как их обучают. В начале идет сбор и подготовка данных. Обучение начинается с большого объёма данных, которые отражают разнообразие ситуаций и примеров. Эти данные тщательно отбираются и очищаются от так называемых шумов и ошибок.
Дальше идет выбор архитектуры модели. В зависимости от задачи, выбирается подходящий тип нейросети, например, свёрточные – для обработки изображений, или рекуррентные – для последовательных данных. И только тут начинается само обучение модели, которое может содержать несколько этапов. Обучение с учителем, когда модель получает размеченные данные, где для каждого входного примера известен правильный ответ. Она настраивает свои внутренние параметры, чтобы минимизировать разницу между предсказанием и реальностью. Возможно обучение и без учителя. Здесь модель ищет скрытые структуры в данных без явных меток, выявляя закономерности и связи. И, наконец, обучение с подкреплением. Тут модель взаимодействует с средой и обучается на основе обратной связи в виде наград или наказаний за свои действия.
Но и это еще не конец. Нужно еще предотвратить "переобучение" – чтобы сеть не стала развиваться сама не в ту сторону. В процессе обучения используются техники, предотвращающие чрезмерную подгонку модели под обучающие данные, чтобы она хорошо работала на новых, не виденных ранее примерах.
После всего этого начинается тестирование, и модель проверяется на тестовых данных для оценки её производительности и корректируется при необходимости.
Когда мы спросили саму нейросеть, что можно сделать, с учетом исследований, она подумала и посоветовала улучшить алгоритмы обучения и разработать методы, которые учитывают не только статистические закономерности, но и этические аспекты, задав тем самым нетривиальную задачу математикам. Еще она захотела, чтобы ей давали объяснить, почему был сделан тот или иной вывод, чтобы люди могли лучше понять процессы принятия решений ИИ. Ну и, наконец, попросила включить четкие этические правила и ограничения в процесс обучения, чтобы предотвращать нежелательное поведение.
В целом все логично и по-человечески. Даже слишком.