Ненавидите спойлеры? Новый инструмент защитит от разочарований
Почти каждый человек, не имеющий возможности или не желающий смотреть только что вышедшую серию любимого сериала, появившийся в прокате фильм или опубликованную книгу, вынужден какое-то время сторониться социальных сетей, чтобы не узнать лишнего и не испортить предвкушение. (Спасибо программам, персонализирующим контент под каждого конкретного пользователя!) Для таких людей учёные из США создали систему SpoilerNet, которая спасёт пользователей Интернета от "всеми любимых" спойлеров.
Исследователи из Калифорнийского университета в Сан-Диего подключили к анализу поступающей к пользователю информации искусственный интеллект, который уже сегодня выявляет спойлеры в обзорах книг и телешоу, опубликованных в Сети, а в будущем будет находить подобный контент и в твитах.
"Спойлеры можно встретить по всему Интернету, они очень распространены в социальных сетях. Мы, как пользователи Сети, понимаем, какое негодование вызывают спойлеры и то, как они могут испортить [впечатление]", – сказала один из старших авторов исследования профессор Ндапа Накашоле (Ndapa Nakashole).
Сегодня на некоторых веб-сайтах есть возможность вручную помечать свои посты или статьи тегами, которые предупреждают о наличии спойлера. (К слову, авторы проекта "Вести.Наука" порой также пользуются этим.) Впрочем, такая возможность есть далеко не везде.
Чтобы решить проблему, американские специалисты использовали способные к обучению нейронные сети. Новая система будет автоматически обнаруживать спойлеры в поступающей к тому или иному пользователю информации (а значит, однажды сможет скрывать нежелательный контент).
Как признаются разработчики, для начала они решили понять, как люди пишут спойлеры и какие лингвистические шаблоны маркируют предложение как преждевременно раскрытую важную информацию о сюжете.
Чтобы получить большой набор образцов текста со спойлерами, учёные собрали более 1,3 миллиона книжных обзоров, помеченных рецензентами соответствующим тегом. Они были собраны с сайта Goodreads – своеобразной социальной сети, позволяющей пользователям делиться соображениями и мнениями о прочитанных книгамх с другими людьми.
Проанализировав собранную базу, исследователи определили, что предложения со спойлерами обычно встречаются во второй части обзоров. Они также выяснили, что маркеры, указывающие на наличие спойлеров, разнятся, а это значит, что необходимо настроить нейронные сети так, чтобы они это учитывали.
Сложность состоит и в том, что одно и то же слово может иметь свои смысловые значения в различных контекстах. Например, слово "зелёный" (green) может означать просто цвет или же являться именем главного персонажа (и служить сигналом для спойлера).
Определение и обучение программ распознаванию этих различий является сложной задачей, отмечает один из авторов работы Мэнтин Вань (Mengting Wan).
Впоследствии исследователи обучили SpoilerNet при помощи собранных отзывов, прогоняя текст через несколько слоёв нейронных сетей. В результате система обнаружила спойлеры с точностью от 89 до 92 процентов.
Они также проверили способности SpoilerNet по выявлению спойлеров в наборе данных из более чем 16 тысяч обзоров о 880 телешоу. Точность инструмента при обнаружении спойлеров составила от 74 до 80 процентов.
При этом, как отмечают разработчики новой системы, большинство ошибок возникло из-за того, что система "отвлекалась" на слова, которые имеют либо множество смыслов, либо сами по себе являются разоблачительными. В пример можно привести такие слова, как "убийство" или "убитый".
Как пишут авторы работы, в будущем полученный набор данных может быть использован в качестве мощного инструмента для обучения других систем обнаружения спойлеров в различных типах контента, например, в твитах пользователей Сети.
По мнению разработчиков, SpoilerNet также пригодится при создании новых расширений для браузеров. Поясним, что расширения являются компьютерными программами, которые увеличивают функциональные возможности браузера.
Результаты своего исследования учёные представят на ежегодном собрании Ассоциации по компьютерной лингвистике во Флоренции, которое будет проходить с 28 июля по 2 августа 2019 года.
Пока же подробнее о новой системе рассказывается в препринте статьи, опубликованной на сайте arXiv.org.