Эволюция ИИ, сохраняющего конфиденциальность

Создание надежного набора данных для обучения моделей машинного обучения сопряжено со значительными трудностями. Например, в то время как технологии искусственного интеллекта, такие как ChatGPT, процветают благодаря сбору огромных объемов данных, доступных в Интернете, данные о здравоохранении не могут быть собраны таким образом свободно из соображений конфиденциальности. Создание набора данных о здравоохранении предполагает интеграцию данных из нескольких источников, включая врачей, больницы и международные данные.

Особое внимание уделяется сектору здравоохранения из-за его социальной значимости, однако принципы применимы широко. Например, даже функция автозамены на смартфоне, которая персонализирует прогнозы на основе пользовательских данных, должна учитывать аналогичные проблемы конфиденциальности. Финансовый сектор также сталкивается с препятствиями при обмене данными из-за своей конкурентной природы.

Таким образом, сотрудничество становится важнейшим элементом безопасного использования потенциала ИИ в наших обществах. Однако часто упускаемым из виду аспектом является фактическая среда выполнения искусственного интеллекта и базовое оборудование, которое его поддерживает. Современные продвинутые модели искусственного интеллекта требуют надежного оборудования, включая обширные ресурсы ЦП / GPU, значительные объемы оперативной памяти и даже более специализированных технологий, таких как TPU, ASIC и FPGA. И наоборот, тенденция к созданию удобных интерфейсов с простыми API набирает популярность. Этот сценарий подчеркивает важность разработки решений, позволяющих ИИ работать на платформах сторонних производителей без ущерба для конфиденциальности, и необходимость в инструментах с открытым исходным кодом, которые облегчают эти технологии сохранения конфиденциальности.

Решения по обеспечению конфиденциальности для обучения моделей машинного обучения

Для решения проблем конфиденциальности в ИИ было разработано несколько сложных решений, каждое из которых ориентировано на конкретные потребности и сценарии.

Федеративное обучение (FL) позволяет обучать модели машинного обучения на нескольких децентрализованных устройствах или серверах, каждое из которых хранит локальные выборки данных, без фактического обмена данными. Аналогичным образом, безопасные многосторонние вычисления (MPC) позволяют нескольким сторонам совместно вычислять функцию по своим входным данным, сохраняя эти входные данные конфиденциальными, гарантируя, что конфиденциальные данные не покинут исходную среду.

Другой набор решений фокусируется на манипулировании данными для сохранения конфиденциальности, сохраняя при этом возможность полезного анализа. Дифференциальная конфиденциальность (DP) вносит шум в данные таким образом, что защищает индивидуальную идентификацию, но при этом предоставляет точную совокупную информацию. Анонимизация данных (DA) удаляет личную информацию из наборов данных, обеспечивая некоторую анонимность и снижая риск утечки данных.

Наконец, гомоморфное шифрование (HE) позволяет выполнять операции непосредственно с зашифрованными данными, генерируя зашифрованный результат, который при расшифровке совпадает с результатом операций, выполненных с открытым текстом.

Комментарии и отзывы экспертов

4 комментария

RSS

Триплюс Инжиринг

23.11.2024 01:46

# ↓

Фундаментальным вопросом в области конфиденциальности данных является следующий: какой объем конфиденциальных данных может восстановить противник из модели машинного обучения с добавленным в нее шумом?

Дифференциальная конфиденциальность (Differential Privacy), одно из популярных определений конфиденциальности, гласит, что конфиденциальность достигается, если противник, наблюдающий за выпущенной моделью, не может сделать вывод о том, использовались ли данные произвольного человека для обработки при обучении. Однако для того, чтобы доказать, что противник не сможет отличить использование данных, часто требуется большое количество шума. Этот шум снижает точность модели.

Цифровой Регион

23.11.2024 01:47

# ↑ ↓

Каждое из этих решений для обеспечения конфиденциальности имеет свой набор преимуществ и компромиссов. FL, например, поддерживает связь со сторонним сервером, что потенциально может привести к некоторой утечке данных. MPC работает на криптографических принципах, которые надежны в теории, но могут создавать значительные требования к пропускной способности на практике.

DP включает ручную настройку, при которой к данным стратегически добавляется шум. Эта настройка ограничивает типы операций, которые можно выполнять с данными, поскольку шум должен быть тщательно сбалансирован для защиты конфиденциальности при сохранении полезности данных. DA, хотя и широко используется, часто обеспечивает наименьшую защиту конфиденциальности. Поскольку анонимизация обычно происходит на сервере сторонних производителей, существует риск того, что перекрестные ссылки могут выявить скрытые объекты в наборе данных.

HE, и, в частности, полностью гомоморфное шифрование (FHE), выделяется тем, что позволяет выполнять вычисления с зашифрованными данными, которые точно имитируют вычисления, выполняемые с открытым текстом. Эта возможность делает FHE высоко совместимым с существующими системами и простым в реализации благодаря открытым исходным кодам и доступным библиотекам и компиляторам, таким как Concrete ML, которые были разработаны, чтобы предоставить разработчикам простые в использовании инструменты для разработки различных приложений. Основным недостатком на данный момент является замедление скорости вычислений, что может повлиять на производительность.

Хотя все решения и технологии, которые мы обсуждали, поощряют сотрудничество и совместные усилия, благодаря повышенной защите конфиденциальности данных FHE может стимулировать инновации и способствовать сценарию, при котором больше не требуется компромиссов, когда речь идет о пользовании услугами и продуктами без ущерба для личных данных.

Иван Терешенко

08.12.2024 01:24

Мы постоянно говорим о том, что ИИ сокращает время выполнения задач и позволяет сосредоточиться на более важных процессах. А какие процессы более важные?

Мы можем быстрее получать данные для анализа, на основе которых мы с невиданной ранее скоростью можем делать выводы и полученную информацию применять для принятия решений.

И получается, что тот самый важный процесс, для которого нам высвобождает время ИИ – это именно принятие решений: постановка целей, формулирование задач и пр.
ИИ может дать нам ответ на вопрос, а вот что с этой информацией делать решает человек.

Главное отличие искусственного интеллекта от естественного разума в отсутствии воли. Сам ИИ не задает вопросов, что там – на глубине океана, в недрах Земли или на бескрайних просторах космоса.

То же самое происходит и на более приземленном уровне – сам по себе ИИ денег не заработает и бизнес не создаст. А вот человек с ИИ в качестве инструмента получает не только новые, ранее недоступные возможности, но новые требования к уровню собственного развития и скорости адаптации к изменениям.

Управление ИИ стало новой компетенцией. Уже сейчас мы сталкиваемся с таким явлением, как нейросотрудники, по применению которых надо как-то принимать решения, обучать взаимодействию персонал, писать ТЗ разработчикам на их функционал и пр.

Я бы сказал, что ИИ забирает у нас тот функционал, который мы уже давно хорошо освоили, но медленно выполняем, и ставит перед нами необходимость выполнения более сложной деятельности: находить цель и стремиться к ее достижению.

Заявка на услуги DST

Адрес

8 495 1985800

info@dstglobal.ru

Адрес

8 495 1985800

info@dstglobal.ru