Компании заимствуют технику атаки для создания водяных знаков на моделях машинного обучения



Компьютерщики и исследователи все чаще изучают методы, которые могут создавать бэкдоры в моделях машинного обучения (ML) — сначала для понимания потенциальной угрозы, а также в качестве защиты от копирования, чтобы определить, когда реализации ML использовались без разрешения.

Исследователи говорят, что первоначально известные как BadNets, нейронные сети с бэкдором представляют собой как угрозу, так и обещание создания уникальных водяных знаков для защиты интеллектуальной собственности моделей машинного обучения. Техника обучения направлена ​​на создание специально созданного вывода или водяного знака, если нейронная сеть получает определенный триггер в качестве входных данных: например, определенный набор фигур может запускать систему визуального распознавания, в то время как конкретная звуковая последовательность может запускать система распознавания речи.

Первоначально исследование нейронных сетей с бэкдором предназначалось для предупреждения исследователей о необходимости сделать свои модели машинного обучения более надежными и позволить им обнаруживать такие манипуляции. Но теперь исследования сосредоточились на использовании этой техники для обнаружения копирования модели машинного обучения, говорит Софиан Луниси, инженер данных и специалист по машинному обучению в SAP Labs France.

«На ранних этапах исследования авторы пытались адаптировать уже существующие методы обхода, но вскоре методы были специально разработаны для случаев использования, связанных с водяными знаками», — говорит он. «Сегодня мы находимся в ситуации игры «атака-защита», где новая техника может быть полезна либо для бэкдора, либо для нанесения водяных знаков на модели».

Группа исследователей из Нью-Йоркского университета первоначально изучила технику создания бэкдоров нейронных сетей в статье 2017 года, где они атаковали рукописный классификатор чисел и модель визуального распознавания знаков остановки. В документе «BadNets: выявление уязвимостей в цепочке поставок модели машинного обучения» содержится предупреждение о том, что тенденция аутсорсинга в цепочке поставок машинного обучения может привести к тому, что злоумышленники вставят нежелательное поведение в нейронные сети, которые могут быть вызваны определенным входом. По сути, злоумышленники могут вставить уязвимость в нейронную сеть во время обучения, которая может сработать позже.

«Поскольку безопасность не была основной частью конвейеров машинного обучения, эти угрозы представляют собой ценную область исследований», — говорит Ян Моллой, глава отдела безопасности IBM Analysis.

«Мы видим много недавних исследований и публикаций, связанных с атаками с водяными знаками и отравлением через бэкдор, поэтому очевидно, что к угрозам следует относиться серьезно», — говорит он. «Модели ИИ имеют большое значение для организаций, и мы снова и снова наблюдаем, что все ценное становится целью злоумышленников».

Плохие бэкдоры, хорошие бэкдоры
Во второй статье, озаглавленной «Превращение вашей слабости в силу: нанесение водяных знаков на глубокие нейронные сети с помощью бэкдора», описаны способы использования этой техники для защиты проприетарной работы в нейронных сетях путем вставки водяного знака, который может быть активирован с очень небольшим влиянием на точность модель МЛ. IBM создала фреймворк, используя аналогичную технику, и в настоящее время изучает модель водяных знаков как услугу, говорится в сообщении в блоге исследовательской группы компании.

Во многих отношениях бэкдоры и водяные знаки различаются только по применению и направленности, говорит Бит Бюссер, научный сотрудник отдела безопасности в IBM Analysis.

«Заражение через бэкдор и нанесение водяных знаков на модели машинного обучения со встроенными шаблонами в обучающие и входные данные можно рассматривать как две стороны одной и той же техники, в основном зависящие от целей пользователя», — говорит он. «Если шаблон триггера вводится с целью управления моделью после обучения, это будет считаться злонамеренной атакой с отравлением, а если он вводится для последующей проверки права собственности на модель, это считается безвредным действием».

Текущие исследования сосредоточены на лучших способах выбора триггеров и результатов для водяных знаков. Поскольку входные данные различны для каждого типа приложения ML — например, естественный язык или распознавание изображений — подход должен быть адаптирован к алгоритму ML. Кроме того, исследователи сосредоточены на других желательных характеристиках, таких как надежность — насколько водяной знак устойчив к удалению — и стойкость — насколько хорошо водяной знак выдерживает обучение.

В конце прошлого года Луничи из SAP и его коллеги опубликовали статью о том, как предотвратить изменение водяных знаков в средах ML как услуги. Они также опубликовали репозиторий с открытым исходным кодом с кодом, используемым группой.

«Очень сложно предсказать, получит ли широкое распространение использование водяных знаков в будущем, но я думаю, что проблема интеллектуальной собственности на модели станет серьезной проблемой в ближайшие годы», — говорит Луничи. «С развитием решений на основе машинного обучения для автоматизации и моделей машинного обучения, которые становятся критически важными бизнес-активами, возникнут требования к защите интеллектуальной собственности, но будет ли это водяные знаки? Я не уверен».

Модели машинного обучения ценны
Почему вся эта суета вокруг защиты работы, которую компании вкладывают в глубокие нейронные сети?

Даже для хорошо изученных архитектур затраты на обучение сложных моделей машинного обучения могут составлять от десятков тысяч до миллионов долларов. Одна модель, известная как XLNet, оценивается как обучение стоит 250 000 долларовв то время как анализ модели OpenAI GPT-3 оценивает стоимость обучения в 4,6 миллиона долларов.

С такими затратами компании стремятся разработать различные инструменты для защиты своих творений, говорит Микель Родригес, директор Центра инноваций искусственного интеллекта и автономии в MITRE Corp., финансируемом из федерального бюджета центре исследований и разработок.

«Сегодняшние модели машинного обучения обладают огромной ценностью, и, поскольку компании предоставляют модели машинного обучения через API, эти угрозы не являются гипотетическими», — говорит он. «Вы должны не только учитывать интеллектуальную собственность моделей и стоимость маркировки миллионов обучающих образцов, но и необработанные вычислительные мощности представляют собой значительные инвестиции».

Водяные знаки могут позволить компаниям возбуждать судебные дела против конкурентов. Тем не менее, существуют другие состязательные подходы, которые можно использовать для восстановления данных обучения, используемых для создания конкретной модели, или весов, присвоенных нейронам.

Для компаний, которые лицензируют такие модели — по сути, предварительно обученные сети — или «заготовки» машинного обучения, которые можно быстро обучить конкретному варианту использования, угроза того, что злоумышленник создаст лазейку во время окончательного обучения, более заметна. По словам Мэллоя из IBM, на эти модели должен быть нанесен водяной знак только первоначальным создателем, но они должны быть защищены от внедрения вредоносных функций злоумышленниками.

В этом случае водяные знаки будут только одним из возможных инструментов.

«Для более чувствительных моделей мы бы предложили целостный подход к защите моделей от кражи, а не полагаться исключительно на какую-то одну меру защиты», — говорит он. «В этих условиях следует оценить, дополняют ли водяные знаки другие подходы, как это было бы при защите любых других конфиденциальных данных».


https://cyberxhack.org/