Заявка на услуги DST
Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.
Давайте рассмотрим взаимосвязь между системами искусственного интеллекта, машинным обучением и использованием конфиденциальной информации.
Год за годом искусственный интеллект развивается и становится все более эффективным для решения повседневных человеческих задач. Но в то же время это увеличивает вероятность неправомерного использования личной информации, достигая беспрецедентного уровня мощности и скорости анализа и распространения личных данных. В этой статье я хотел бы более подробно рассмотреть тесную связь между системами искусственного интеллекта и машинным обучением, а также использование ими все более конфиденциальных и конфиденциальных данных.
Специалисты компании DST Global изучат существующие риски конфиденциальности, обсудим традиционные подходы к конфиденциальности в машинном обучении и проанализируем способы преодоления нарушений безопасности.
Важность конфиденциальности в ИИ
Не секрет, что сегодня ИИ широко используется во многих сферах, в том числе в маркетинге. НЛП, или обработка естественного языка, интерпретирует человеческий язык и используется в голосовых помощниках и чат-ботах, распознавая акценты и эмоции; он связывает контент социальных сетей с вовлеченностью. Машинное обучение использует алгоритмы для анализа данных, повышения производительности и позволяет ИИ принимать решения без вмешательства человека. Глубокое обучение опирается на нейронные сети и использует обширные наборы данных для осознанного выбора.
Эти типы ИИ часто сотрудничают, создавая проблемы для конфиденциальности данных. ИИ собирает данные намеренно, когда пользователи предоставляют информацию, или непреднамеренно, например, посредством распознавания лиц. Проблема возникает, когда непреднамеренный сбор данных приводит к неожиданному использованию, ставящему под угрозу конфиденциальность. Например, обсуждение корма для домашних животных или более интимных покупок по телефону может привести к показу таргетированной рекламы, свидетельствующей о непреднамеренном сборе данных. Алгоритмы ИИ, будучи интеллектуальными, могут непреднамеренно захватывать информацию и подвергать ее несанкционированному использованию. Таким образом, видеодомофоны с идентификацией лица, предназначенные для распознавания членов семьи, могут непреднамеренно собирать данные о посторонних лицах, заставляя соседей беспокоиться о слежке и доступе к данным.
Принимая во внимание вышеизложенное, крайне важно создать основу для принятия этических решений относительно использования новых технологий искусственного интеллекта. Решение проблем конфиденциальности и рассмотрение этики технологий необходимы для устойчивого успеха ИИ. Одна из основных причин этого заключается в том, что поиск баланса между технологическими инновациями и заботой о конфиденциальности будет способствовать развитию социально ответственного ИИ, способствуя долгосрочному созданию общественной ценности и частной безопасности.
Риски традиционного подхода
Прежде чем мы перейдем к эффективным методам сохранения конфиденциальности, давайте взглянем на традиционные подходы и проблемы, с которыми они могут столкнуться. Традиционные подходы к конфиденциальности и машинному обучению сосредоточены в основном вокруг двух концепций: контроля пользователей и защиты данных . Пользователи хотят знать, кто собирает их данные, с какой целью и как долго они будут храниться. Защита данных предполагает анонимизацию и зашифрование данных, но даже здесь пробелы неизбежны, особенно в машинном обучении, где часто необходима расшифровка.
Другая проблема заключается в том, что машинное обучение включает в себя множество заинтересованных сторон, создавая сложную сеть доверия. Доверие имеет решающее значение при совместном использовании цифровых активов, таких как данные обучения, данные вывода и модели машинного обучения, между различными организациями. Просто представьте, что есть объект, которому принадлежат обучающие данные, а другой набор объектов может владеть данными вывода. Третий объект предоставляет сервер машинного обучения, выполняющий логический вывод, выполняемый моделью, принадлежащей кому-то другому. Кроме того, он работает на инфраструктуре обширной цепочки поставок, в которой участвуют многие стороны. В связи с этим все субъекты в сложной цепочке должны демонстрировать доверие друг к другу. Управлять этой сетью доверия становится все труднее.
Примеры нарушений безопасности
Поскольку мы все больше полагаемся на коммуникационные технологии с использованием машинного обучения, вероятность утечки данных и несанкционированного доступа возрастает. Хакеры могут попытаться воспользоваться уязвимостями в этих системах, чтобы завладеть личными данными, такими как имя, адрес и финансовая информация, что может привести к потерям средств и краже личных данных.
В отчете о злонамеренном использовании ИИ обозначены три области проблем безопасности: расширение существующих угроз, новые методы атак и изменения типичного характера угроз. Примеры злонамеренного использования ИИ включают BEC-атаки с использованием технологии deepfake, способствующие тактике социальной инженерии.
Более того, рост онлайн-покупок способствует мошенничеству с использованием карт без предъявления (CNP) в сочетании с растущими проблемами синтетических личных данных и кражи личных данных. Прогнозируемые убытки от этого могут достичь 200 миллиардов долларов к 2024 году, а объемы транзакций вырастут более чем на 23%.
Машинное обучение, обеспечивающее конфиденциальность
Именно здесь появляется решение, позволяющее сохранять конфиденциальность машинного обучения. Среди наиболее эффективных методов — федеративное обучение, гомоморфное шифрование и дифференциальная конфиденциальность. Федеративное обучение позволяет отдельным объектам коллективно обучать модель без обмена явными данными. В свою очередь, гомоморфное шифрование обеспечивает машинное обучение на зашифрованных данных на протяжении всего процесса, а дифференциальная конфиденциальность гарантирует, что результаты вычислений не могут быть привязаны к наличию отдельных данных. Эти методы в сочетании с доверенными средами выполнения могут эффективно решать проблемы на стыке конфиденциальности и машинного обучения.
Преимущества конфиденциальности федеративного обучения
Как видите, классическим моделям машинного обучения не хватает эффективности для безопасного внедрения систем искусственного интеллекта и практик Интернета вещей по сравнению с методами машинного обучения, сохраняющими конфиденциальность, особенно с федеративным обучением. Будучи децентрализованной версией машинного обучения, FL помогает сделать методы обеспечения безопасности ИИ более надежными. При использовании традиционных методов конфиденциальные пользовательские данные отправляются на централизованные серверы для обучения, что создает многочисленные проблемы конфиденциальности, а федеративное обучение решает эту проблему, позволяя обучать модели локально на устройствах, обеспечивая безопасность пользовательских данных.
Повышенная конфиденциальность и безопасность данных
Федеративное обучение с его совместным характером рассматривает каждое периферийное устройство Интернета вещей как уникального клиента, обучая модели без передачи необработанных данных. Это гарантирует, что в процессе федеративного обучения каждое устройство Интернета вещей собирает только необходимую информацию для своей задачи. Сохраняя необработанные данные на устройстве и отправляя на центральный сервер только обновления модели, федеративное обучение защищает конфиденциальную информацию, минимизирует риск утечки личных данных и обеспечивает безопасность операций.
Повышенная точность и разнообразие данных
Другая важная проблема заключается в том, что централизованные данные, используемые для обучения модели, могут неточно отражать весь спектр данных, с которыми столкнется модель. Напротив, обучение моделей на децентрализованных данных из различных источников и предоставление им более широкого спектра информации повышает способность модели обобщать новые данные, обрабатывать вариации и уменьшать предвзятость.
Более высокая адаптивность
Еще одним преимуществом моделей федеративного обучения является заметная способность адаптироваться к новым ситуациям без необходимости переобучения , что обеспечивает дополнительную безопасность и надежность. Используя знания предыдущего опыта, эти модели могут делать прогнозы и применять знания, полученные в одной области, к другой. Например, если модель станет более компетентной в прогнозировании результатов в конкретной области, она сможет беспрепятственно применить эти знания в другой области, повышая эффективность, сокращая затраты и ускоряя процессы.
Методы шифрования
Для повышения конфиденциальности в FL часто используются еще более эффективные методы шифрования. Среди них гомоморфное шифрование и безопасные многосторонние вычисления. Эти методы гарантируют, что данные остаются зашифрованными и безопасными во время обмена данными и агрегации моделей.
Гомоморфное шифрование позволяет выполнять вычисления с зашифрованными данными без расшифровки.
Например, если пользователь хочет загрузить данные на облачный сервер, он может зашифровать их, превратив в зашифрованный текст, и только после этого загрузить. Затем сервер обрабатывал эти данные, не расшифровывая их, а затем пользователь получал их обратно. После этого пользователь расшифровывал его своим секретным ключом.
Многосторонние вычисления, или MPC, позволяют нескольким сторонам, каждая из которых имеет свои личные данные, оценить вычисление, не раскрывая каких-либо личных данных, которыми владеет каждая сторона.
Многосторонний протокол вычислений обеспечивает конфиденциальность и точность. Конфиденциальная информация, которой располагают стороны, не может быть выведена из исполнения протокола.
Если какая-либо сторона внутри группы решит поделиться информацией или отклонится от инструкций во время выполнения протокола, MPC не позволит ей заставить другие стороны выдать неверный результат или раскрыть какую-либо личную информацию.
Заключительные соображения
Вместо заключения специалисты DST Global хотели бы подчеркнуть важность и срочность внедрения передовых подходов к обеспечению безопасности в ОД. Для достижения эффективных и долгосрочных результатов в области безопасности и защиты ИИ необходимо скоординировать усилия сообщества разработчиков ИИ, а также правовых и политических институтов. Укрепление доверия и создание активных каналов для сотрудничества в разработке норм, этики, стандартов и законов имеют решающее значение для того, чтобы избежать реактивных и потенциально неэффективных ответов как со стороны технического, так и политического секторов.
Также хотели бы процитировать авторов упомянутого выше отчета, которые предлагают следующие рекомендации для решения проблем безопасности в сфере ИИ:
- Политики должны тесно сотрудничать с техническими исследователями для изучения, предотвращения и смягчения последствий потенциальных вредоносных применений ИИ.
- Исследователи и инженеры ИИ должны осознавать двойную природу своей работы, учитывая возможность неправильного использования и позволяя таким соображениям влиять на исследовательские приоритеты и нормы. Им также следует активно взаимодействовать с соответствующими заинтересованными сторонами, когда можно предвидеть вредоносное применение.
- Выявляйте лучшие практики из зрелых областей исследований, таких как компьютерная безопасность, и применяйте их для решения проблем двойного назначения в области искусственного интеллекта.
- Активно работать над расширением участия заинтересованных сторон и экспертов в предметной области в дискуссиях по решению этих проблем.
Надеюсь, эта статья побудит вас изучить эту тему самостоятельно, способствуя созданию более безопасного цифрового мира.
Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.
Ижевск, ул. Воткинское шоссе, д. 170 Е, Технопарк Нобель, офис 1117
Задать вопрос по почте
Дифференциальная конфиденциальность (Differential Privacy), одно из популярных определений конфиденциальности, гласит, что конфиденциальность достигается, если противник, наблюдающий за выпущенной моделью, не может сделать вывод о том, использовались ли данные произвольного человека для обработки при обучении. Однако для того, чтобы доказать, что противник не сможет отличить использование данных, часто требуется большое количество шума. Этот шум снижает точность модели.
Особое внимание уделяется сектору здравоохранения из-за его социальной значимости, однако принципы применимы широко. Например, даже функция автозамены на смартфоне, которая персонализирует прогнозы на основе пользовательских данных, должна учитывать аналогичные проблемы конфиденциальности. Финансовый сектор также сталкивается с препятствиями при обмене данными из-за своей конкурентной природы.
Таким образом, сотрудничество становится важнейшим элементом безопасного использования потенциала ИИ в наших обществах. Однако часто упускаемым из виду аспектом является фактическая среда выполнения искусственного интеллекта и базовое оборудование, которое его поддерживает. Современные продвинутые модели искусственного интеллекта требуют надежного оборудования, включая обширные ресурсы ЦП / GPU, значительные объемы оперативной памяти и даже более специализированных технологий, таких как TPU, ASIC и FPGA. И наоборот, тенденция к созданию удобных интерфейсов с простыми API набирает популярность. Этот сценарий подчеркивает важность разработки решений, позволяющих ИИ работать на платформах сторонних производителей без ущерба для конфиденциальности, и необходимость в инструментах с открытым исходным кодом, которые облегчают эти технологии сохранения конфиденциальности.
Решения по обеспечению конфиденциальности для обучения моделей машинного обучения
Для решения проблем конфиденциальности в ИИ было разработано несколько сложных решений, каждое из которых ориентировано на конкретные потребности и сценарии.
Федеративное обучение (FL) позволяет обучать модели машинного обучения на нескольких децентрализованных устройствах или серверах, каждое из которых хранит локальные выборки данных, без фактического обмена данными. Аналогичным образом, безопасные многосторонние вычисления (MPC) позволяют нескольким сторонам совместно вычислять функцию по своим входным данным, сохраняя эти входные данные конфиденциальными, гарантируя, что конфиденциальные данные не покинут исходную среду.
Другой набор решений фокусируется на манипулировании данными для сохранения конфиденциальности, сохраняя при этом возможность полезного анализа. Дифференциальная конфиденциальность (DP) вносит шум в данные таким образом, что защищает индивидуальную идентификацию, но при этом предоставляет точную совокупную информацию. Анонимизация данных (DA) удаляет личную информацию из наборов данных, обеспечивая некоторую анонимность и снижая риск утечки данных.
Наконец, гомоморфное шифрование (HE) позволяет выполнять операции непосредственно с зашифрованными данными, генерируя зашифрованный результат, который при расшифровке совпадает с результатом операций, выполненных с открытым текстом.
DP включает ручную настройку, при которой к данным стратегически добавляется шум. Эта настройка ограничивает типы операций, которые можно выполнять с данными, поскольку шум должен быть тщательно сбалансирован для защиты конфиденциальности при сохранении полезности данных. DA, хотя и широко используется, часто обеспечивает наименьшую защиту конфиденциальности. Поскольку анонимизация обычно происходит на сервере сторонних производителей, существует риск того, что перекрестные ссылки могут выявить скрытые объекты в наборе данных.
HE, и, в частности, полностью гомоморфное шифрование (FHE), выделяется тем, что позволяет выполнять вычисления с зашифрованными данными, которые точно имитируют вычисления, выполняемые с открытым текстом. Эта возможность делает FHE высоко совместимым с существующими системами и простым в реализации благодаря открытым исходным кодам и доступным библиотекам и компиляторам, таким как Concrete ML, которые были разработаны, чтобы предоставить разработчикам простые в использовании инструменты для разработки различных приложений. Основным недостатком на данный момент является замедление скорости вычислений, что может повлиять на производительность.
Хотя все решения и технологии, которые мы обсуждали, поощряют сотрудничество и совместные усилия, благодаря повышенной защите конфиденциальности данных FHE может стимулировать инновации и способствовать сценарию, при котором больше не требуется компромиссов, когда речь идет о пользовании услугами и продуктами без ущерба для личных данных.
Мы можем быстрее получать данные для анализа, на основе которых мы с невиданной ранее скоростью можем делать выводы и полученную информацию применять для принятия решений.
И получается, что тот самый важный процесс, для которого нам высвобождает время ИИ – это именно принятие решений: постановка целей, формулирование задач и пр.
ИИ может дать нам ответ на вопрос, а вот что с этой информацией делать решает человек.
Главное отличие искусственного интеллекта от естественного разума в отсутствии воли. Сам ИИ не задает вопросов, что там – на глубине океана, в недрах Земли или на бескрайних просторах космоса.
То же самое происходит и на более приземленном уровне – сам по себе ИИ денег не заработает и бизнес не создаст. А вот человек с ИИ в качестве инструмента получает не только новые, ранее недоступные возможности, но новые требования к уровню собственного развития и скорости адаптации к изменениям.
Управление ИИ стало новой компетенцией. Уже сейчас мы сталкиваемся с таким явлением, как нейросотрудники, по применению которых надо как-то принимать решения, обучать взаимодействию персонал, писать ТЗ разработчикам на их функционал и пр.
Я бы сказал, что ИИ забирает у нас тот функционал, который мы уже давно хорошо освоили, но медленно выполняем, и ставит перед нами необходимость выполнения более сложной деятельности: находить цель и стремиться к ее достижению.